restore恢复分区数据后,表无法查询

【StarRocks版本】2.5.10
【集群规模】例如:3fe+3be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:8C/16G/万兆
【详述】问题详细描述
执行restore恢复命令恢复分区后,表无法查询
【背景】
通过备份恢复,将一张表的历史分区导入到另一个集群对应的表中,两张表名和表结构都一致。

两个表均是按月分区。
源表中有p202309,202310,202311三个分区。
目标表中已有p202311分区,对应11月份数据,同时目标表有写入操作。

计划通过backup命令将源表中的p202309,202310恢复到目标表中,但是由于误操作,将p202311分区也备份并恢复了,导致查询该表报错。

【业务影响】

  • 查询报错:
    select count(*) 报错,报错如下:

ERROR 1064 (HY000): Build Exec OlapScanNode fail, scan info is invalid,Failed to get scan range, no queryable replica found in tablet: 94961 10076:3868/-1/3868/0,10003:3868/-1/3868/0

这种的可以恢复吗

目标表的p202311能不能被backup快照覆盖呢?

目前restore结束后,p202311无法查,其他分区可查

我意思是说,有一种办法是,首先把tablet_report的时间间隔调得非常大,保证在restore过程中,不触发tablet_report。然后把p202311的快照重新在目标表restore一次,但是这样的话,p202311的数据最终会被快照的p202311覆盖掉,这样业务可以接受吗

你说的这种方法应该可行,而且我们后续也不会再出现这种覆盖已有分区数据的情况,这次是因为误操作导致的。
我们现在已经通过新建表及rename等操作恢复正常。这张问题表也rename了一下,保留问题现场。

我想问的时候,这张表的问题分区,有办法可以修复吗。

这个问题应该是tablet_report和restore并发导致的问题,某些情况下可能可以通过set bad处理,但是极端情况下可能全部副本都是有问题的,不一定能直接恢复了。最好的办法就是重新给这个分区再跑一次restore了。

tablet_report时间间隔对应的参数是哪个阿

report_tablet_interval_seconds BE

好的,非常感谢哈。。。