集群中所有节点ip变更后FE无法正常恢复

【详述】集群因特殊原因做了迁移,数据通过硬盘备份的方式还原到新机器,新老集群都是3节点,部署方式都是3fe+3be混部。迁到新集群后所有ip都变了,按照恢复元数据的方案进行数据恢复。采用的是最终方案,就是选了一台fe节点,配置bdbje_reset_election_group = true ,如果不删除meta下的role和version文件,可以正常启动fe,通过命令连上后,可以正常show backends,和操作backends,但是show frontends会直接报错,unknown error,日志里可以看到的错误是

如果删除meta下的role和version文件启动,来启动fe的话,fe是无法启动的,日志中可以看到错误是


想了解下改ip到底应该怎么做呢,按文档的操作是失败的。目前情况是集群勉强启动,可以使用,但fe都不能修改,老的fe不能删,新的加不上。但数据还能查。

【背景】备份meta数据,增加配置bdbje_reset_election_group = true,启动fe;分别尝试不修改role和version文件,以及删除role和version的方式都有问题
【业务影响】无法正常运行
【是否存算分离】否
【StarRocks版本】3.2.8,操作中升级到3.2.11
【集群规模】例如:3fe(3 follower)+3be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:16C/64G/万兆
【联系方式】yuyii@qq.com

这个问题难道没有人出现的吗?我试了两个集群都是一样错啊。。。有没有大佬帮忙解决下的

这种方案不推荐,这种只能通过强制恢复一台fe,其他的重新加入,另外恢复的那台只有image创建时间之前的元数据,后面的就都丢了

ip如果经常变更的话,建议使用fqdn方式启动

这种方式是逼不得已,崩溃造成的。目前这种方式fe不正常,无法添加新的fe节点。现在已经打算整个迁移重建了。

可以使用其中一台加bdbje_reset_election_group = true恢复,其他两台重新部署加入集群,不过就丢掉了image生成时间之后的元数据了

不行的,上面已经描述了,一开始用的就是bdbje_reset_election_group 来启动的fe,但是涉及到fe的命令都崩溃了,连show frontends都不可以,加其他节点等都不能操作。仅仅能够启动集群而已,fe无法做任何操作。。

你拉起的时候把bdb清掉了么?只保留image