UnhealthyTabletNum完全不减少数量

见习的我 · 2025年11月19日 03:37

为了更快的定位您的问题，请提供以下信息，谢谢
【详述】
starrocks 的fe节点只有 1个，3个be. 因为要迁移机器，在新机器起了 3个新的be,通过扩容的方式加入了集群。随后下线了老的 3个是节点。是 10天前操作的，但是，昨天通过缩扩容方式处理fe失败。导致集群不可用。新机器的be数据都没了。fe在执行扩容之前有备份meta 目录。现在想把老的be 节点启用，还有可能吗？

最初只是部署了1 fe 3 be，迁移需要新增了1fe 3be，总共2fe 6be （2 follower）+6be（fe与be混部）
随即操作ALTER SYSTEM DECOMMISSION backend ip:9050; 移除了最初的3个be
UnhealthyTabletNum为0 后一直没再操作了此时服务正常
14天后核对fe情况如下

想把原leader改成新fe节点的执行下面这个报错
ALTER SYSTEM TRANSFER LEADER TO “192.168.12.89:7010”;
百度说停了原fe，新fe会自动变成leader，实际不然，一通操作后发现新节点3 be的storage目录数据都少了很多（3G多变成了不到300M），停止fe前有备份meta，无法从新的be恢复数据了？那能否通过旧的3个be节点恢复数据（14天前），哪怕数据不全也行
【背景】
【业务影响】
数据库权限恢复了，库里面表也能看到，但无法打开

【是否存算分离】
【StarRocks版本】例如：StarRocks-3.2.14
【集群规模】例如：2fe（2 follower）+3be（fe与be混部）
【机器信息】8核32G
【联系方式】1142519541@qq.com
【附件】
fe.log

show PROC ‘/statistic’;
一条数据都无法恢复（附图）

慢查询：
- Profile信息
- be节点cpu和内存使用率截图
查询报错：
2025-11-18 16:57:33.508+08:00 WARN (ReportHandler|218) [ReportHandler.deleteFromMeta():863] disk of path hash -1 dose not exist, delete tablet 16845 on backend 139978 from meta