FE JVM heap一直增长导致进程挂掉

lockie · 2025年01月6日 09:23

【详述】StarRocks集群为3FE+4BE，共7台服务器，4个BE独立部署在4台服务器上，FE结点和Flink CDC的Flink on yarn集群共享部署在3台服务器上，整个集群为Flink CDC实时同步生产MySQL库到SR集群，FE结点配置jvm内存为16GB（-Xmx16384m -Xms16384m），集群tablet总数为132890。问题现象：某个FE结点jvm heap一直在增长，连续增加几天后在2025-01-04 02:15:36 FE进程自动退出，然后自己编写的守护进程立即重启了FE进程，重启之后，另外一个FE结点（leader）也出现了类似的趋势。
【背景】集群在凌晨1点至9点压力比较大，有大量数据插入。集群数据量比较大，有几个table有上亿条记录，多的6-7亿，单表最大数据量100多GB。
【业务影响】影响业务连续性
【是否存算分离】否
【StarRocks版本】3.3.6
【集群规模】3fe（3 follower，与Flink CDC混部）+4be
【机器信息】16C/64G/万兆
【联系方式】社区群24，lockie，email：59120341@qq.com
【附件】

fe.conf

JAVA_OPTS="-Dlog4j2.formatMsgNoLookups=true -Xmx16384m -Xms16384m -XX:+UseG1GC -Xlog:gc*:${LOG_DIR}/fe.gc.log.$DATE:time -XX:ErrorFile=${LOG_DIR}/hs_err_pid%p.log -Djava.security
.policy=${STARROCKS_HOME}/conf/udf_security.policy"
jdbc_meta_default_cache_enable = true
jdbc_meta_default_cache_expire_sec = 60000
memory_tracker_enable = false

fe.gc
fe.gc.zip (7.1 MB)
fe.log
fe.log.zip (714.7 KB)
fe.log.20250104-1中FE结点挂掉再重启的位置

image1901×824 146 KB
FE JVM监控（FE挂掉的结点）

image1899×815 150 KB
FE 结点主机监控（FE挂掉的结点）

image1901×824 146 KB
BE内存监控（所有结点）

image1904×836 325 KB
1月4日FE重启后，另外一个FE（leader）结点也出现类似的趋势

image1904×834 160 KB
另外一个FE结点的jvm监控

image1904×822 160 KB

stalary · 2025年01月17日 09:09

我使用3.3.6也有同样问题，查询hive的集群

jingdan · 2025年01月21日 02:41

参考 [问题排查]内存相关拿下profile

风0623 · 2025年02月5日 07:33

请问现在解决了吗？如何解决的啊？是这个版本有问题吗？