记录一次fe挂掉后,重启失败的解决过程

【详述】一个fe挂掉,一直重启不了,在fe.out中发现报错记录
【业务影响】
【StarRocks版本】 2.1.6
【集群规模】例如:3fe(1 follower+2observer)+3be(fe与be混部)
【机器信息】 8C/32G/万兆
【联系方式】
【附件】

在日志中出现了三个fe节点的时间,首先想到3个fe节点并没有定时做时间同步,可能存在时间差导致其中一个fe节点出现问题。所以同步了三个节点的时间,并做了定时同步。然后重启3个fe,但是出问题的节点还是启动失败。有可能是由于有问题的fe中的的bdb目录已经记录了之前要replay的时间。

查了查社区相似问题后,如下操作
1.ALTER SYSTEM DROP FOLLOWER “host:port”;
2.删除有问题的fe的meta目录
3.重新加入集群 ALTER SYSTEM ADD FOLLOWER “host:port”;
4.用helper启动fe. ./bin/start_fe.sh --helper host:port --daemon
就此搞定,fe启动成功