【详述】集群FE凌晨突然全挂,重启之后,依旧无法正常工作
【背景】凌晨有离线和实时任务同步数据
【业务影响】
【StarRocks版本】2.0.2
【集群规模】例如:3fe+5be
【机器信息】fe 4c32g,be 16c64g
【联系方式】邮箱:super_inter@sina.com
【附件】
.
【详述】集群FE凌晨突然全挂,重启之后,依旧无法正常工作
【背景】凌晨有离线和实时任务同步数据
【业务影响】
【StarRocks版本】2.0.2
【集群规模】例如:3fe+5be
【机器信息】fe 4c32g,be 16c64g
【联系方式】邮箱:super_inter@sina.com
【附件】
这台节点除了重启还做过啥操作
完整的fe.log和meta/bdb/je.info.0发下
jvm调大重启下
调大到240G ,没有效果。
目前服务只有9100端口是起来的
另外两个fe日志都贴下
把be全部重启了一下,目前集群恢复了正常,但是bdb文件夹有70G+,这个元数据如何恢复到正常范围
升级到2.0最新小版本吧,应该是bdb膨胀的已知问题,另外这个版本太老了,目前不维护了,抽时间升级到最新的2.5版本吧
当前版本有没有临时解决方案?
确认fe/lib/je-7.3.7.jar的这个je版本是不是这个,是的话在fe.conf中添加如下的配置,重启fe,不是的话升级到2.0的最新小版本再观察下
bdbje_cleaner_threads = 4
bdbje_replay_cost_percent = 0
好的,我们试下,感谢
可以描述一下什么场景下才会触发bdb膨胀吗?
高频导入,另外中间bdb有引入一个bug
这个有相关的iss地址吗
这个两个参数的解释吗,默认参数是? bdbje_cleaner_threads 清理bdbje 的线程吗?
bdbje_replay_cost_percent这个配置是 禁用bdbje_replay
我们当前版本是2.0.5,配置这几个参数有效果吗?
这个参数需要升级到2.0的最新版本才生效