记录一次fe挂掉后，重启失败的解决过程

fangoxyz · 2023年01月9日 07:35

【详述】一个fe挂掉，一直重启不了，在fe.out中发现报错记录
【业务影响】
【StarRocks版本】 2.1.6
【集群规模】例如：3fe（1 follower+2observer）+3be（fe与be混部）
【机器信息】 8C/32G/万兆
【联系方式】
【附件】

fangoxyz · 2023年01月9日 07:42

在日志中出现了三个fe节点的时间，首先想到3个fe节点并没有定时做时间同步，可能存在时间差导致其中一个fe节点出现问题。所以同步了三个节点的时间，并做了定时同步。然后重启3个fe，但是出问题的节点还是启动失败。有可能是由于有问题的fe中的的bdb目录已经记录了之前要replay的时间。

查了查社区相似问题后，如下操作
1.ALTER SYSTEM DROP FOLLOWER “host:port”;
2.删除有问题的fe的meta目录
3.重新加入集群 ALTER SYSTEM ADD FOLLOWER “host:port”;
4.用helper启动fe. ./bin/start_fe.sh --helper host:port --daemon
就此搞定，fe启动成功