StarRocks2.1.5 fe故障并且无法自动启动

是的,要删掉的。

大概删除周期是多久,我目前看其他节点的这个目录不但没有变小,反而在有变大的趋势,普通follower节点已经涨了好几个G了,master节点现在达到20多G了

image
间隔几分钟执行的命令,目录一直在变大

60多G了。。。

你把show frontends的结果截图看下,是不是还有alive为false的节点啊

我看另一个集群,这个文件夹才170M

把 fe/lib/starrocks-bdb-je-7.3.8.jar 换成 http://starrocks-public.oss-cn-zhangjiakou.aliyuncs.com/je-7.3.7.jar ,然后重启试下

在131节点的fe目录下执行这个java -jar lib/je-7.3.7.jar DbGroupAdmin -helperHosts masterip:edit_log_port -groupName PALO_JOURNAL_GROUP -dumpGroup看结果的ip和show frontends结果一致不,修改相应的jar包名称和ip以及port

所有fe节点都要重启吗

对,那个bdb目录膨胀的都重启。

都重启好了,在观察,现在110G

经过1晚自动修复,bdb目录变成170M,故障节点也成功加入集群 :smiley:

好的,这个jar引起的元数据膨胀问题我们会在下个版本先规避掉

我是 2.2.0 遇到的 bdb 膨胀问题, 已经 2t 了,
升级到 2.2.3, lib 也同时升级了, 确认里面是 je-7.3.7.jar
目前 bdb 目录增长放缓了, 但是没有减少的迹象, 一般需要多久才能开始恢复, 有没有手动触发的命令呢

检查一下集群里各fe的时间,有可能是时间相差太大,定时同步时间,并且重启所有fe,我其中一个fe挂掉后就这么解决的,

操作记录新开了个帖。记录一次fe挂掉后,重启失败的解决过程

没看太懂,最后怎么解决的呢?

我也遇见一样的问题了,最后发现回滚后 rpc port未正常关闭,手动kill掉重启就好了