be重启后无法与fe通信

【业务影响】大部分生产SQL都无法执行 卡主
【StarRocks版本】2.0.1
【集群规模】3fe+5be
【机器信息】32c/128G
【附件】
【详述】:

服务器时间为UTC时间
1、3.6日早发现SQL任务都timeout,查看grafana监控集群状态发现正常,只是在凌晨六点左右有两台be发生了重启不过随后恢复,观察SQL调度任务恰好实在在be重启之后卡主的。:

2、使用命令查看fe 与be状态正常,但是发现be的lastSuccessReportTabletsTime停留在了监控上be重启后的时间:

3、查看fe日志与be日志发现,be一直无法与fe通信,timeout, 使用telnet测试网络端口正常:


fe:

be:

重启fe master切换master了之后,集群恢复。。。但是没有发现原因为啥。。

您好,请问集群当时在做什么任务呢?

因为是凌晨 没有特殊的操作,集群每小时会有些数仓任务调度起来,还有就是实时的写入 也是一直在跑的

您好,麻烦看一下1565879这个tablet有什么异常吗?几个副本的表呢?

这个tablet对应的三副本的表,当时的集群状态是大部分表的查询都会卡主,并不只有这一张表。

您好,麻烦确认一下当时的那台fe节点是否有出现full gc, grep -i full log/fe.gc*