fe节点掉线无法启动

【详述】3fe+3be fe节点经常因为oom掉线,掉线后无法正常重启,需要踢出集群后重新加入。集群没有高负载,只是通过stream load同步数据,具体信息见日志
【背景】小版本升级 从2.4.1升级到2.4.2
【业务影响】
【StarRocks版本】例如:2.4.2
【集群规模】例如:3fe +3be
【机器信息】CPU虚拟核/内存/网卡,例如:48C/64G/万兆

内存信息
total used free shared buff/cache available
Mem: 7551 1957 1556 0 4037 5304

【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息,请补充下您的联系方式,例如:社区群4-小李或者邮箱,谢谢
fe日志.txt (143.6 KB)feconf.txt (1.1 KB)

补充:
因为看到报错是 1.8.0_301,所以换了FE/BE的JAVA 现在是1.8.0.352。java.util.concurrent.ThreadPoolExecutor.runWorker报错换成了1.8.0_352
后续用 echo 2048 | sudo tee /proc/sys/net/core/somaxconn" 这个命令调整了somaxconn,但是报错依旧 。

这个集群使用了自定义函数。

内存配置的多大?
可以在bin/start_fe.sh里加下

# OOM的时候自动dump内存快照出来
-XX:+HeapDumpOnOutOfMemoryError
# 把内存快照放到哪儿去
-XX:HeapDumpPath=/usr/local/app/oom

再次出现oom的时候可以dump内存

服务器内存8G。 还有, java.net.SocketException: Broken pipe (Write failed) 这样的报错是starrocks程序的问题吗?

服务器一共就8G?FE和BE混合部署吗?
还有2.4.1没这个问题,升级到2.4.2才出现这个问题的吗

3fe+3be 都是独立节点。每台节点8G内存。2.4.1的时候没宕机所以没查看日志,不保证那时没有。2.4.2是因为2.4.1有"使用UDF导致BE节点宕机的bug"所以升级的。

另外,这个库几乎没有链接,只是通过stream load在同步数据。

这个集群有多少tablet? show proc ‘/statistic’;看下

观察下现在leader占用的内存大吗?大的话,可以打印下内存镜像发过来 jmap -dump:format=b,file=filename.hprof pid

检查FE频繁,会导致OOM?

没有发现直接联系

阿里云健康检测是调用的metrics接口吗

阿里云健康检测是调用的metrics接口吗?

不是

定位发现是insert导致的内存泄漏,升级到2.4.4

你好,我看2.4.4的release note里没有提到 修复了这个问题,是漏了吗?

2.4.4修复了