routine load卡死

【详述】数据表从kafka用routine load间隔60秒同步数据,每小时对表执行一次批量delete操作删除少量垃圾数据,运行大约7天后出现如下情况:routine load仍然处于running状态,但是没有数据更新。
【处理过程】重建一张新表,将历史数据导入,然后重建routine load,继续之前的操作,2天后问题又出现;
其他只有routine load没有delete的表运行正常;
表为分区表,每天1个分区,采用unique key模型,数据量3TB(3 replica一共)
【StarRocks版本】例如:2.5.3
【集群规模】2fe(1 follower+1observer)+5be

是不是delete操作导致的routine load卡死,如果是的话具体原因是什么呢?

show routine load task where jobname=‘xxx’; 执行这个看下子任务具体报什么错

结果:
| 64e1e6c9-9a4b-43a8-aa39-7e5bb503d07e | -1 | UNKNOWN | 40203349 | 2023-07-27 09:49:33 | NULL | NULL | 60 | -1 | {“0”:709416031,“3”:764420996} | previous task aborted because of Too many versions. tablet_id: 40193445, version_count: 4763, limit: 1000, replica_state: 0: be:…… |

这个是因为 delete 造成tablet版本数过多,导致的无法正常导入。当tablet版本数超过阈值(默认1000)时,会暂停导入,优先做版本合并。 批量 delete操作是同时下发很多条delete sql 么,每一条delete sql 删除涉及到的 tablet 都会生成1个版本

好的,我明白了,谢谢