FE leader节点莫名挂掉,FE进程假死

【详述】问题详细描述
【背景】FE leader节点莫名挂掉,FE进程假死
【业务影响】
【StarRocks版本】3.0
【集群规模】3fe(1 follower+1observer)+4be
【机器信息】16C/32G/万兆
【联系方式】245988705@qq.com

1、现象说明:
FE leader 节点进程还在,8030监听端口也都存在,但是从FE 8030 web console访问服务失败,
Grafanan监控显示 FE leader节点已是 dead 状态:


使用mysql 客户端访问查看fe frontends 状态显示如下:
mysql> show proc ‘/frontends’\G
ERROR 1064 (HY000): (JE 18.3.13) Could not determine master from helpers at:
[/192.168.0.185:9010, /192.168.0.188:9010]
查看fe.log 和 warn 日志信息并无明显报错信息。

2、辅助排查
检查 FE、BE节点是否时间同步,经检查节点全部都同步:

3、强制重启
在排查问题无果后,尝试重启,发现一直在刷stop waiting,无法通过sh停止fe节点,通过kill强杀后
重启fe节点恢复正常

希望各位小伙伴帮忙一起排查分析原因,版本为3.0新版本,FE进程莫名假死。

188节点的fe.log请您发下

log.zip (392.2 KB)
集群是昨天才部署的,fe log 和warn log 都在压缩包里面了

log.zip (392.2 KB)