【详述】集群已经有三天连续2k个tablet处于异常状态,无法自动恢复
【背景】手动处理几个置为bad 状态,但数据量太大,无法一个个手动处理
【业务影响】集群健康和稳定性
【StarRocks版本】例如:2.3.4
【集群规模】例如:3fe+7be
【机器信息】CPU虚拟核/内存/网卡,例如:56C/256G/万兆
【附件】
- fe master warn log
看日志中,只有 10008一个节点上有问提 ::find 1120 tablets on backend 10008 which is bad or misses versions that need clone or force recovery
