StarRocks FE 元数据空间异常增长,占满磁盘空间

版本:2.2.0 --》2.2.5

3个FE节点(2.2.0版本),运行近半年一直都很稳定,昨晚开始突然出现meta目录将磁盘空间占满的情况,3个节点均占满。


尝试一: 替换2.2.0版本fe/lib包下的starrocks-bdb-je-7.3.8.jar 为je-7.3.7.jar,重启所有FE节点,meta目录空间一开始都释放出来了

但过了大约1小时,又瞬间将磁盘空间占满,导致3个FE都挂掉。
尝试二:上述操作没有解决问题,于是直接下载2.2.5版本进行升级,替换掉lib和bin目录,重启FE之后,开始meta空间也释放出来了,但过了大约半小时,再次将磁盘空间占满,3个FE也都挂掉。


FE在此期间的大量输出类似上述日志

ps:升级过程中,因为原有安装目录为2.1.4(最开始是从2.1.4升级到2.2.0的),替换完2.2.5的lib和bin目录后,我更改了安装目录的名字,改为了2.2.5。现在我是把目录名字改回最开始的2.1.4了。


再次重启之后,空间仍然是自动释放了,目前运行了有一个半小时,meta空间暂时没有发现明显增长。


FE和BE节点也均正常,不知道后续还会不会出现meta异常增长的情况。
最后一次操作与之前的区别就是改了目录的名字,不知道是否与此相关?

======================分割线========================
更新: 截止上次发帖1个多小时,meta空间又开始增长了,不过这次没有无限增长,到一定值就稍微开始下降,FE节点还都是正常。下面是三个节点的meta存储大小情况



目前FE日志情况

您好方便提供一些出现问题时的master 的fe.log的日志么?

logs.tar.bz2 (57.6 MB)
之前没有注意到三台fe那台才是master节点,所以我将发生问题时3台fe的log都导出来了,文件有点大,我压缩了一下。

因为在两天之内连续几次占满磁盘导致FE不可用,基于之前每次重启之后空间都能自动释放,所以我们临时加了磁盘监控预警,超过阈值重启FE。但自从加了监控之后,已经有3天稳定运行并没有触发自动重启机制。很奇怪,不知道是触发了什么机制。

下次再出现的时候,可以加上这两个配置:
bdbje_cleaner_threads = 4
bdbje_replay_cost_percent = 0

大佬,请问你们最后是怎样解决的?

大佬,我的也出现了这种情况,之前运行了一年多没问题,最近2天元数据激增,直接占满磁盘,你们的问题解决了吗?求分享

您使用的是哪个版本?请单独发个贴描述下问题

我的是 2.0.5版本,升级到2.2.11,经过两个版本来回切换几次,磁盘占比是下降到了正常水平,但是好几个用户连不上集群了,8030端口连不上,image

请问具体是哪个元数据文件占用空间多呢?是bdb文件夹还是image文件夹呢?

大佬,我看github上这个问题是你修复的,能解释下这个bug触发的原因吗。