FE JVM heap一直增长导致进程挂掉

【详述】StarRocks集群为3FE+4BE,共7台服务器,4个BE独立部署在4台服务器上,FE结点和Flink CDC的Flink on yarn集群共享部署在3台服务器上, 整个集群为Flink CDC实时同步生产MySQL库到SR集群,FE结点配置jvm内存为16GB(-Xmx16384m -Xms16384m),集群tablet总数为132890。问题现象:某个FE结点jvm heap一直在增长,连续增加几天后在2025-01-04 02:15:36 FE进程自动退出,然后自己编写的守护进程立即重启了FE进程,重启之后,另外一个FE结点(leader)也出现了类似的趋势。
【背景】集群在凌晨1点至9点压力比较大,有大量数据插入。集群数据量比较大,有几个table有上亿条记录,多的6-7亿,单表最大数据量100多GB。
【业务影响】影响业务连续性
【是否存算分离】否
【StarRocks版本】3.3.6
【集群规模】3fe(3 follower,与Flink CDC混部)+4be
【机器信息】16C/64G/万兆
【联系方式】社区群24,lockie,email:59120341@qq.com
【附件】

  • fe.conf
JAVA_OPTS="-Dlog4j2.formatMsgNoLookups=true -Xmx16384m -Xms16384m -XX:+UseG1GC -Xlog:gc*:${LOG_DIR}/fe.gc.log.$DATE:time -XX:ErrorFile=${LOG_DIR}/hs_err_pid%p.log -Djava.security
.policy=${STARROCKS_HOME}/conf/udf_security.policy"
jdbc_meta_default_cache_enable = true
jdbc_meta_default_cache_expire_sec = 60000
memory_tracker_enable = false

我使用3.3.6也有同样问题,查询hive的集群

参考 [问题排查]内存相关 拿下profile