集群中所有节点ip变更后FE无法正常恢复

yuyii · 2024年09月12日 09:24

【详述】集群因特殊原因做了迁移，数据通过硬盘备份的方式还原到新机器，新老集群都是3节点，部署方式都是3fe+3be混部。迁到新集群后所有ip都变了，按照恢复元数据的方案进行数据恢复。采用的是最终方案，就是选了一台fe节点，配置bdbje_reset_election_group = true ，如果不删除meta下的role和version文件，可以正常启动fe，通过命令连上后，可以正常show backends，和操作backends，但是show frontends会直接报错，unknown error，日志里可以看到的错误是

如果删除meta下的role和version文件启动，来启动fe的话，fe是无法启动的，日志中可以看到错误是

想了解下改ip到底应该怎么做呢，按文档的操作是失败的。目前情况是集群勉强启动，可以使用，但fe都不能修改，老的fe不能删，新的加不上。但数据还能查。

【背景】备份meta数据，增加配置bdbje_reset_election_group = true，启动fe；分别尝试不修改role和version文件，以及删除role和version的方式都有问题
【业务影响】无法正常运行
【是否存算分离】否
【StarRocks版本】3.2.8，操作中升级到3.2.11
【集群规模】例如：3fe（3 follower）+3be（fe与be混部）
【机器信息】CPU虚拟核/内存/网卡，例如：16C/64G/万兆
【联系方式】yuyii@qq.com

yuyii · 2024年09月17日 15:03

这个问题难道没有人出现的吗？我试了两个集群都是一样错啊。。。有没有大佬帮忙解决下的

jingdan · 2024年09月23日 12:00

这种方案不推荐，这种只能通过强制恢复一台fe，其他的重新加入，另外恢复的那台只有image创建时间之前的元数据，后面的就都丢了

jingdan · 2024年09月23日 12:00

ip如果经常变更的话，建议使用fqdn方式启动

yuyii · 2024年09月24日 04:21

这种方式是逼不得已，崩溃造成的。目前这种方式fe不正常，无法添加新的fe节点。现在已经打算整个迁移重建了。

jingdan · 2024年09月24日 04:42

可以使用其中一台加bdbje_reset_election_group = true恢复，其他两台重新部署加入集群，不过就丢掉了image生成时间之后的元数据了

yuyii · 2024年09月24日 13:44

不行的，上面已经描述了，一开始用的就是bdbje_reset_election_group 来启动的fe，但是涉及到fe的命令都崩溃了，连show frontends都不可以，加其他节点等都不能操作。仅仅能够启动集群而已，fe无法做任何操作。。

jingdan · 2024年09月25日 03:04

你拉起的时候把bdb清掉了么？只保留image