fe元数据日志磁盘占用异常升高

【详述】fe meta目录磁盘占用异常
集群使用3台fe follower方式部署,凌晨5点左右出现过master宕机重新选主,后续出现一台follower节点的bdb目录下的.jdb文件持续增多(2w+文件,200G占用,持续增长),一台follower节点正常,master中的.jdb文件也较多(100+G,但未持续增长)。
重启异常follower节点后仍异常,未发现持续的WARNING日志输出。

【背景】做过哪些操作?
fe-1出现过宕机重新选主后无法加入到集群,fe-0磁盘被打爆,整个集群宕机了一段时间,后重新扩容fe-0磁盘,集群重启,fe-2当选master节点。

【业务影响】磁盘用量持续增高
【StarRocks版本】2.3.3
【集群规模】3fe(3 follower)+5be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:48C/64G/万兆
【联系方式】微信

方便发下对应时间段的日志吗 这个大概率是没有做checkpoint导致的 可能是已知问题,可以升级到2.3的最新版本在验证下 ,最新版本只做bugfix 没有新功能合入

需要warning日志还是info日志?整个磁盘增长持续了很长时间,我看checkpoint是有做的,有11点的时候有生成image文件,然后有一台follower是正常的。

fe.log日志 现在3台fe的image文件分别是多大 方便截下图吗

master节点


fe-follower-1


fe-follower-2


磁盘信息,目前一直在增加磁盘

是不是可以先通过删元数据的方式恢复呢?目前这个磁盘占用一直在上升

bdb当前分别是多大? 这个大概率是已经修复的问题 我去确认下

255G, 128G, 555M

555m的是starrocks-1? leader节点

555m是starrocks-1,是follower节点,leader节点是128G,starrocks-2

这个集群一直是2.3.3吗

bdbje_cleaner_threads = 4
bdbje_replay_cost_percent = 0

fe.conf中配置下这个,然后重启一下,看看会不会降下去

这个集群之前是2.3.3单节点,大概一周前上了高可用,用的也是2.3.3,但是升级了bdbje的版本到starrocks-7.3.8,有合并[BugFix] Fix bdb VLSN Inconsistency bug (#4970)这个提交,问题是早上fe集群出现宕机之后发生的

不要用这个版本的bdb

把bdb换回去吧

可以微信沟通一下吗?

或者你可以用这个版本的bdb:https://repo1.maven.org/maven2/com/starrocks/starrocks-bdb-je/18.3.13/starrocks-bdb-je-18.3.13.jar。这是3.0版本用的bdb。但是得注意一点的是,使用了18.3.13版本的bdb之后就一直得用这个版本了,以后升级2.5也得用这个版本的。

好的,私信你了。