supervisor重启be后,fe依然标记be为dead

starrocks version: 2.3.3
3fe + 5be
使用supervisor做保活

情况说明:
be由于oom宕掉后,很快由supervisor拉起,但是通过 show proc ‘/backends’ 查看 isalive依然是false. 此时的 lastestarttime 和lastheartbeattime都是null, 查看所有fe的日志,也没看到hbresponse标记be为alive。

此时只能通过重启fe来刷新heartbeat. 重启master也不够需要全部节点重启。刷新heartbeat后,lastestarttime/lastheartbeattime又不为null。

这样就比较麻烦了。保活等于无效。望解答支持

@trueeyu
@StarRocks小助手
求助

是有混部吗,理论上不会OOM

加个微信,聊下?

发送加好友申请了

这个问题我们已经修复了,我们最近发的新版本会带上这个bug fix。现在处理这个问题的话,fe.conf里面配置一下 heartbeat_retry_times = 0

Fix的PR也发下吧

内存占用高,可能是 UpdateCompaction 涉及的版本比较多导致,当前没法限制,

用户使用了Bitmap,Bitmap基数千万级别