【详述】三台be,fe 混部集群(75,76,77),发现集群两台fe节点服务挂掉(76,77),导致凌晨任务不能正常执
【背景】白天服务都正常,只有凌晨跑大批任务时候be 服务会停止,这种情况出现过多次,中间间隔在5天左右,之前只有一台be停止,昨天be挂掉是2台都挂掉了。
【业务影响】导致不能正常执行跑批任务
【是否存算分离】否
【StarRocks版本】3.2.3
【集群规模】3fe(2 follower+1leader)+3be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:16C/32G/万兆
【联系方式】社区群13-王双涛
【附件】
be停机时间
76fe日志
76fe.log (2.2 MB)
77fe日志查不到了。
用的命令是grep ‘2024-05-08 00:2[1-4]:.*’ fe.log > 77fe.log
77be.out, 每隔几天就挂一次,导致跑批任务不能执行,影响很大。
76be.out,最近一次跟77一块挂掉了
我们项目只有一套集群,夜间跑批任务是 datax 数据抽取任务,共约有500个主键表任务,并行30个左右。
还有3000个日快照明细表任务,30个左右并行,因为77崩溃。暂时停止了调度。
请社区技术大神帮分析下集群崩溃原因及修复措施。目前运维投入太大了,严重影响任务正常调度,感谢,感谢。