fe follower jvm 持续增长并oom

【详述】问题详细描述
【背景】做过哪些操作?
【业务影响】
【StarRocks版本】例如:2.5.1
【集群规模】例如:3fe(3 follower)+5be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:48C/64G/万兆
【联系方式】
问题:从2.2.10升级到2.5.1 后,fe 主节点没有问题,fe 两个follower 节点的内存持续升值,直到oom,最终导致两个fe follower 挂掉,整个集群不可以,通过监控查看 follower fe jvm gcc 次数比fe master 节点次数少一倍以上。

表现:fe master 内存old 区域能正常回收
fe follower 内存old区域不能正常回收,并持续升高,
2个follower 不可用,最终导致fe master 也挂掉。

fe.log 和fe.out 请您发下,follower 的jstack 请提供下, 有使用insert into overwrite功能么?

看现象是insert内存泄漏的问题。可以发下jmap -histo:live pid验证下。

这种是内存泄漏吗

image
我这儿也是同样的问题,版本也是2.5.1
两个fe follower内存占用持续增长直至oom,最终fe都挂掉

JAVA_OPTS="-Dlog4j2.formatMsgNoLookups=true -Xmx73728m -XX:+UseMembar -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=7 -XX:+PrintGCDateStamps -XX:+PrintGCDetails -XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:+CMSClassUnloadingEnabled -XX:-CMSParallelRemarkEnabled -XX:CMSInitiatingOccupancyFraction=80 -XX:SoftRefLRUPolicyMSPerMB=0 -Xloggc:$STARROCKS_HOME/log/fe.gc.log.$DATE"

发下jmap看看呢,什么版本,这个应该是内存泄漏了,我们排查下jmap -histo:live pid

看下上面的回复呢

image
image
fe 异常重启后,内存占用还是居高不下

598_jmap.txt (436.3 KB)

600_jmap.txt (451.9 KB)

升级到2.5.3吧,这个已经修复了

3.0.3 版本也存在这样的问题! fe master 内存占用不高20%左右, fe follower 内存使用过高超85%,内存都是16G,其余默认配置 ,使用:
1:有 flink stream load导入任务10个左右。
2:有大的查询在使用
3:做过几十亿大表的analyze full 操作
4:运行时间一个月左右

3.0.5修了,马上发版

be.WARNING一直报这种错误,咋回事,可以帮忙看看吗
local tablet migration failed. status: Already exist: tablet_meta already exist. tablet: 9125678.132572125.a4485de49748f1a0-7bef62a25d64e9bd, signature: 9125678

感谢大佬,这个升级到3.1.0 是否也可以呢?

出现这个情况是已经泄露了么老师?