fe节点掉线无法启动

U_1669262737894_3657 · 2023年02月8日 04:12

【详述】3fe+3be fe节点经常因为oom掉线，掉线后无法正常重启，需要踢出集群后重新加入。集群没有高负载，只是通过stream load同步数据，具体信息见日志
【背景】小版本升级从2.4.1升级到2.4.2
【业务影响】
【StarRocks版本】例如：2.4.2
【集群规模】例如：3fe +3be
【机器信息】CPU虚拟核/内存/网卡，例如：48C/64G/万兆

内存信息
total used free shared buff/cache available
Mem: 7551 1957 1556 0 4037 5304

【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息，请补充下您的联系方式，例如：社区群4-小李或者邮箱，谢谢
fe日志.txt (143.6 KB)feconf.txt (1.1 KB)

U_1669262737894_3657 · 2023年02月10日 01:59

补充：
因为看到报错是 1.8.0_301，所以换了FE/BE的JAVA 现在是1.8.0.352。java.util.concurrent.ThreadPoolExecutor.runWorker报错换成了1.8.0_352
后续用 echo 2048 | sudo tee /proc/sys/net/core/somaxconn" 这个命令调整了somaxconn,但是报错依旧。

这个集群使用了自定义函数。

gengjun · 2023年02月10日 02:25

内存配置的多大？
可以在bin/start_fe.sh里加下

# OOM的时候自动dump内存快照出来
-XX:+HeapDumpOnOutOfMemoryError
# 把内存快照放到哪儿去
-XX:HeapDumpPath=/usr/local/app/oom

再次出现oom的时候可以dump内存

U_1669262737894_3657 · 2023年02月10日 02:29

服务器内存8G。还有， java.net.SocketException: Broken pipe (Write failed) 这样的报错是starrocks程序的问题吗？

gengjun · 2023年02月10日 03:20

服务器一共就8G？FE和BE混合部署吗？
还有2.4.1没这个问题，升级到2.4.2才出现这个问题的吗

U_1669262737894_3657 · 2023年02月10日 03:23

3fe+3be 都是独立节点。每台节点8G内存。2.4.1的时候没宕机所以没查看日志，不保证那时没有。2.4.2是因为2.4.1有"使用UDF导致BE节点宕机的bug"所以升级的。

U_1669262737894_3657 · 2023年02月10日 04:06

另外，这个库几乎没有链接，只是通过stream load在同步数据。

gengjun · 2023年02月10日 06:21

这个集群有多少tablet？ show proc ‘/statistic’;看下

U_1669262737894_3657 · 2023年02月10日 06:25

gengjun · 2023年02月10日 07:03

观察下现在leader占用的内存大吗？大的话，可以打印下内存镜像发过来 jmap -dump:format=b,file=filename.hprof pid。

trueeyu · 2023年02月13日 11:04

检查FE频繁，会导致OOM？

U_1669262737894_3657 · 2023年02月14日 04:04

没有发现直接联系

gengjun · 2023年02月17日 03:03

阿里云健康检测是调用的metrics接口吗

U_1669262737894_3657 · 2023年02月17日 09:34

阿里云健康检测是调用的metrics接口吗？

不是

gengjun · 2023年02月22日 10:19

定位发现是insert导致的内存泄漏，升级到2.4.4

U_1649754113481_5857 · 2023年02月27日 10:15

你好，我看2.4.4的release note里没有提到修复了这个问题，是漏了吗？

trueeyu · 2023年02月27日 09:53

2.4.4修复了