【详述】fe节点重启失败,只有9010端口重启成功,9020、9030、8030监听启动失败,并且log日志文件增长过快
【背景】fe节点日志文件增长太快导致磁盘占满,清理磁盘空间后重启fe节点失败。报错failed to init journal after transfer to leader! will exit。修改了fe.conf参数ignore_unknown_log_id = true试着重启,发现只有9010端口重启成功,9020、9030、8030监听启动失败,并且log日志文件增长过快,疯狂打印(stateChangeExecutor|62)
【业务影响】
【StarRocks版本】例如:2.5.3
【集群规模】例如:1fe+3be(fe与be分开部署)
【机器信息】fe:8c\32G
【联系方式】社区群14-相
【附件】
fe.out (5.6 MB)
fe.log (56.6 MB)
fe.warn.log (2.5 MB)
fe.gc.log.20230612-113831 (83.2 KB)
fe节点是什么配置,jvm的xmx配置是多大,ls下fe的meta目录看下。看fe的日志在正常启动回放元数据,等一下,看下是否可以启动成功
fe是8c\32G,jvm给了20g。请问fe的启动回放元数据是一个怎样的过程,需要这么长时间吗,已经回放1个小时了还没有完
应该bdbje是没有正常的checkpoint 导致meta里面的数据特别多,回放特别慢, 这种情况只能再等等
2.5的最新版本修了,升级下就行
确实等回放完就启动成功了,但是平时改如何避免checkpoint异常呢,部署多节点fe可以吗
部署多fe也不能避免异常,这个是碰到了bug, 建议先升级到2.5.6版本
后续可以增加fe image的监控,如果超过1天没有更新的话,可能需要看下日志排查一下异常,或者需要手动创建一下image避免长时间没有checkpoint
请教fe image的监控该如何增加呢,需要工具或什么命令呢
starrocks_fe_image_write
这个指标记录了写入image的个数,可以配置一下告警,如果一天没有变动的话发出告警
如果已经将fe metrics接入prometheus的话可以通过如下表达式来配置告警
(sum by (job) (starrocks_fe_image_write) - sum by (job) (starrocks_fe_image_write offset 24h)) == 0
job 是对应配置的集群名称
1赞
这个回放大概是多久啊?