Strarrocks3.2.3 2个be服务挂掉

【详述】三台be,fe 混部集群(75,76,77),发现集群两台fe节点服务挂掉(76,77),导致凌晨任务不能正常执
【背景】白天服务都正常,只有凌晨跑大批任务时候be 服务会停止,这种情况出现过多次,中间间隔在5天左右,之前只有一台be停止,昨天be挂掉是2台都挂掉了。
【业务影响】导致不能正常执行跑批任务
【是否存算分离】否
【StarRocks版本】3.2.3
【集群规模】3fe(2 follower+1leader)+3be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:16C/32G/万兆
【联系方式】社区群13-王双涛
【附件】

be停机时间
image

76fe日志


76fe.log (2.2 MB)

77fe日志查不到了。
用的命令是grep ‘2024-05-08 00:2[1-4]:.*’ fe.log > 77fe.log
77be.out, 每隔几天就挂一次,导致跑批任务不能执行,影响很大。

76be.out,最近一次跟77一块挂掉了


我们项目只有一套集群,夜间跑批任务是 datax 数据抽取任务,共约有500个主键表任务,并行30个左右。

还有3000个日快照明细表任务,30个左右并行,因为77崩溃。暂时停止了调度。

请社区技术大神帮分析下集群崩溃原因及修复措施。目前运维投入太大了,严重影响任务正常调度,感谢,感谢。

刚才跑主键表任务 77 be又挂掉了


  • fe和be混部,be.conf 中是否设置 mem_limit ,检查下 fe jvm + be mem_limit +其他服务+预留5G = 机器free -g 实际可用内存
  • dmesg -T 检查是否有 oom 信息

谢谢您, dmesg -T 看到 内存超出限制了, 减少了 be mem_limit 再观察几天。