FE内存占用异常,存在大量历史事务记录

【详述】问题详细描述
FE的leader服务,内存占用极高,总内存24G,峰值达到90%,频繁出现FE leader进程挂掉重启。
观察fe.log日志,每次重启后都会有大量的replay transaction的日志,而且有很多历史事务的日志,如2022年11月21日的日志提交完成记录。


图片

我这里统计日志文件打印出来的最早的事务提交日志时间是如下:
1669001433189——2022-11-21 11:30:34
【背景】做过哪些操作?
【业务影响】
会造成FE的leader服务频繁挂掉


【StarRocks版本】
2.0.9
【集群规模】
3fe+3be(fe与be混部)
【机器信息】
24C/62G/千兆
【联系方式】
社区群5-不惑
邮箱:zxdtony@126.com
【附件】
leader的fe jvm head

follower的fe jvm head

follower的fe jvm head






麻烦您看下fe leader节点目录下的meta文件夹大小和image的生成时间

图片

请问下jvm配置的多大呢?看样子应该是很久没做checkpoint了

3台fe,有1台中间因为某些原因,调整到32G,另外2台是24G,这台leader节点是24G

fe leader节点的jvm调大一些(可以调到32G),然后重启下,正常的image文件生成时间应该是近几小时,看你这个好久了。之后观察bdb的文件夹是否变小,启动时间可能会很长(在做cp),等待即可。


试了还是不行。
有什么办法能排查到他为什么不做checkpoint吗?看他的ckpt文件是在更新的

在fe.log里面搜下 leaderCheckpointer,会有checkpoint失败的日志,应该是checkpoint失败了。

我先升级到2.2.12版本,跑了两天现在状态稳定,fe内存已经降下来了。


图片

可以发下当时内存涨的时候的日志吗

文件有点大,我百度网盘连接发给你吧

链接:https://pan.baidu.com/s/1oQmyr8ls27KmqqeV4auwCg
提取码:uhsl