be节点无法下线

集群1.19.5:
故障描述:一个节点部署了2个BE ,机器硬件故障无法恢复,通过执行alter system decommission backend “host:port” 同时对这2个节点缩容,已经一个礼拜了 ,一个节点存在一个tablet 一个存在3个tablet,应该如何处理?如果出现线上出现2节点或3节点异常又应该如何修复?

硬件故障指的是?我理解这个可能也会影响呢。

应该先扩容再缩容,如果建了两个副本的表,但是你现在只有一个机器,这个时候tablet是不能迁过去的。

机器硬件故障 无法恢复的

集群是3个副本的,一个节点机器故障已经无法恢复,现在是无法下线

一个机器上部署了两个BE节点加入了一个集群里面? SHOW PROC "/statistic"看下

目前是这样的。

建议先把所有表改成两副本的,然后再drop,或者是先扩一个节点,再drop,这样能简单点

当前我还有8个be的

@dbaspace 这个看起来是老版本的 bug,decommission 会残留 tablet,建议升级到 2.3;

然后对于你这个问题,如果机器已经故障了,这个时候上面的 BE 其实也无法提供服务了,正确的做法是,你直接 drop 这个故障机器上的 backend ,不用等 decommission 了,然后 FE 会自动调度,修复缺少的 replica。

如果是三副本,只要有一副本正常,都可以修复,但是如果多数派挂了,导入会异常,需要等修复完才能正常导入。如果是三个副本都挂了,那这种情况无法自动修复,需要手动通过 recovery 模式修复。所以还是建议一个机器就部署一个 BE,降低可用性风险。

@dbaspace 升级集群可参考:https://docs.starrocks.com/zh-cn/main/administration/Cluster_administration#升级-fe-节点

1赞