BE存储故障测试

【详述】
我将1台be节点的storage目录删掉,测试在丢失1副本后,对数据表的影响。
结果是:
2副本表,可查,不可写入


3副本表,可写,可指定分区查询,不可整表查询


【背景】做过哪些操作?
【业务影响】
【StarRocks版本】2.0.9
【集群规模】1fe 3be fe与be混部
【机器信息】24CPU虚拟核 64G内存 千兆网卡
【联系方式】社区群5-不惑
【问题】

  1. 存储路径数据丢失,starrocks能否自动恢复?
  2. 存储路径数据丢失后,starrocks自动恢复需要多久?(我现在隔了1个小时查这个表,依然是相同的问题)
  3. 路径数据被删除,但是通过ADMIN SHOW REPLICA STATUS FROM查看tablet状态依然都是NORMAL和OK
    SHOW PROC ‘/statistic’;结果没有Unhealthy的tablet,是不是starrocks检测tablet损坏的机制有问题?
  4. 当遇到此类故障后,有什么办法可以快速手动恢复数据,让表可查可写。

测试的是2.0.9?

是的,版本2.0.9。
测试发现在be运行过程中,删掉1台be的storage目录,该be服务不会挂。相关损坏的表,2副本表不能写,可查;3副本的表,可写,受损分区不可查。经过3个小时的等待,be没有触发自动修复的动作,查看损坏的tablet显示全部正常。重启be服务后,可以立刻触发storage修复的动作,会从其他节点,download数据到本地storage目录。