【业务影响】大部分生产SQL都无法执行 卡主
【StarRocks版本】2.0.1
【集群规模】3fe+5be
【机器信息】32c/128G
【附件】
【详述】:
服务器时间为UTC时间
1、3.6日早发现SQL任务都timeout,查看grafana监控集群状态发现正常,只是在凌晨六点左右有两台be发生了重启不过随后恢复,观察SQL调度任务恰好实在在be重启之后卡主的。:
2、使用命令查看fe 与be状态正常,但是发现be的lastSuccessReportTabletsTime停留在了监控上be重启后的时间:
3、查看fe日志与be日志发现,be一直无法与fe通信,timeout, 使用telnet测试网络端口正常:
fe:
be:






