fe节点重启失败，只有9010端口重启成功

进击的姬哥 · 2023年06月12日 09:59

【详述】fe节点重启失败，只有9010端口重启成功，9020、9030、8030监听启动失败，并且log日志文件增长过快
【背景】fe节点日志文件增长太快导致磁盘占满，清理磁盘空间后重启fe节点失败。报错failed to init journal after transfer to leader! will exit。修改了fe.conf参数ignore_unknown_log_id = true试着重启，发现只有9010端口重启成功，9020、9030、8030监听启动失败，并且log日志文件增长过快，疯狂打印(stateChangeExecutor|62)
【业务影响】
【StarRocks版本】例如：2.5.3
【集群规模】例如：1fe+3be（fe与be分开部署）
【机器信息】fe：8c\32G
【联系方式】社区群14-相
【附件】
fe.out (5.6 MB)
fe.log (56.6 MB)
fe.warn.log (2.5 MB)
fe.gc.log.20230612-113831 (83.2 KB)

dongquan · 2023年06月12日 12:30

fe节点是什么配置，jvm的xmx配置是多大，ls下fe的meta目录看下。看fe的日志在正常启动回放元数据，等一下，看下是否可以启动成功

进击的姬哥 · 2023年06月13日 01:54

fe是8c\32G，jvm给了20g。请问fe的启动回放元数据是一个怎样的过程，需要这么长时间吗，已经回放1个小时了还没有完

yangrong · 2023年06月13日 01:57

应该bdbje是没有正常的checkpoint 导致meta里面的数据特别多，回放特别慢, 这种情况只能再等等

trueeyu · 2023年06月14日 01:23

2.5的最新版本修了，升级下就行

进击的姬哥 · 2023年06月14日 01:27

确实等回放完就启动成功了，但是平时改如何避免checkpoint异常呢，部署多节点fe可以吗

yangrong · 2023年06月14日 01:46

部署多fe也不能避免异常，这个是碰到了bug, 建议先升级到2.5.6版本
后续可以增加fe image的监控，如果超过1天没有更新的话，可能需要看下日志排查一下异常，或者需要手动创建一下image避免长时间没有checkpoint

进击的姬哥 · 2023年06月14日 03:01

请教fe image的监控该如何增加呢，需要工具或什么命令呢

yangrong · 2023年06月28日 09:17

starrocks_fe_image_write
这个指标记录了写入image的个数，可以配置一下告警，如果一天没有变动的话发出告警
如果已经将fe metrics接入prometheus的话可以通过如下表达式来配置告警
(sum by (job) (starrocks_fe_image_write) - sum by (job) (starrocks_fe_image_write offset 24h)) == 0
job 是对应配置的集群名称

jeason · 2024年12月19日 13:59

这个回放大概是多久啊？