主键模型bug(月分区增多导致insert性能严重下降)

【详述】少量数据insert速度超慢
【背景】insert
【业务影响】速度慢
【是否存算分离】否
【StarRocks版本】3.3.7
【集群规模】3fe +4be(fe与be混部)
【机器信息】48C/241G/万兆
【表模型】明细模型
【导入或者导出方式】insert
【联系方式】社区群3-阿坚
【附件】
profile文件:
insert.txt (121.3 KB)

耗时最慢的地方:

查询语句过滤出来一共也就30w左右数据,正常窗口里执行1秒都不到就结束了。
但是放在shell里面去执行就非常慢,需要花费十几秒。非常奇怪,每次重新上传shell脚本后执行就正常了,过了几十分钟又开始不正常了。该SQL每10分钟执行一次。ods.reg_scan_dtl 表为主键模型。

SQL语句:
insert into ods.reg_scan_dtl
partition(p202412)
(…
)
select …
from stg.tb_scan a
LEFT JOIN [broadcast]dms.gs b --add by gxz 20200109
ON a.prev_site=cast(b.bm as varchar)
LEFT JOIN [broadcast]dms.gs c
ON a.scan_site=cast(c.bm as varchar)
LEFT JOIN [broadcast]dms.gs d
ON a.next_site=cast(d.bm as varchar)
where db_time between ‘2024-12-19 09:40:00’ and ‘2024-12-19 10:49:59’
and (regexp(a.doc_id,’^[0-9]{9}$’) OR a.doc_id is null)
and (regexp(a.sdoc_id,’^[0-9]{13,15}$’) OR a.sdoc_id is null)
and (a.sdoc_id not like ‘1000%’ OR a.sdoc_id is null);

tb_scan表定义:
tb_scan11.sql (7.6 KB)
ods.reg_scan_dtl表定义:
reg_scan_dtl.txt (8.6 KB)

经过排查是目标表中的月分区数量导致的。分区开始时间从2017-01-01改到2022-01-01后insert速度从20s降低到1s,这是什么bug? 月分区模式下总共也就100个分区不到,怎么会导致insert速度下降这么严重?