follower挂掉,thrift连接超时 ,java heap oom?

【详述】follower挂掉,发现fe.out日志里有thrift超时 和 oom日志 ;
fe.out (114.9 KB)
【背景】2.4.0 升级到 2.5.0之后
【业务影响】暂时未知,一些ms级查询不定时(3-12小时不等)变成 数秒的耗时,然后正常;循环往复,不清楚之间是否有关系?顺便也将日志贴出查询ms变成数秒相关日志.log (1.7 KB)
【StarRocks版本】2.5.0
【联系方式】社区群4-lizhongshan

JAVA_OPTS="-Dlog4j2.formatMsgNoLookups=true -Xmx8192m -XX:+UseMembar -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=7 -XX:+PrintGCDateStamps -XX:+PrintGCDetails -XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:+CMSCl
assUnloadingEnabled -XX:-CMSParallelRemarkEnabled -XX:CMSInitiatingOccupancyFraction=80 -XX:SoftRefLRUPolicyMSPerMB=0 -Xloggc:$STARROCKS_HOME/log/fe.gc.log.$DATE"
绝大部分数据还在kudu中,目前SR数据量总计不到300G

挂的频繁吗?可以在启动脚本里加下这个

# OOM的时候自动dump内存快照出来
-XX:+HeapDumpOnOutOfMemoryError
# 把内存快照放到哪儿去
-XX:HeapDumpPath=/usr/local/app/oom

等再次oom的时候打印下内存镜像

好的,我先加下;
挂的不频繁; 提这个问题时挂过两次,暂时没出现过了

2.4.0没出现过吗

没有出现过,2.4.0基本没有啥问题,挺稳定的

只有一个follower挂掉吗?这个follower是业务链接的唯一节点吗?

挂掉的是三个follower里非master角色的,没有影响使用

挂的两次是同一个FE吗?

这边的insert into overwrite多吗?

不是,两个各挂一次,都是非master的follower

目前用的更多的是聚合表模型,用于计算

insert into overwrite 这种语句多吗?

你可以看下监控,看看是不是follower的heap会一直慢慢的往上涨?

没有显示的使用这种语句,不过使用了不少聚合模型表,底层修改主键数据的逻辑不晓得是不是和insert into overwrite一样;

是的,现在还是升高到了60%了,不会到峰值又挂掉吧?

这个升级到2.5.2吧,insert内存泄漏的问题,已经修复了。