存算分离 insert into 执行时间比较长

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】问题详细描述
【背景】做过哪些操作?
相同数据量执行 INSERT INTO SELECT xxx 时,2.5.x 的存算一体版本需要 2 分钟左右,而存算分离最初需要 5 分钟,当前需要 13 分钟。
【业务影响】
执行过慢可能导致失败,会影响业务。
【是否存算分离】

【StarRocks版本】例如:1.18.2
3.1.13
【集群规模】例如:3fe(1 follower+2observer)+5be(fe与be混部)
3fe+18cn
【机器信息】CPU虚拟核/内存/网卡,例如:48C/64G/万兆
32C/256G
【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息,请补充下您的联系方式,例如:社区群4-小李或者邮箱,谢谢
【附件】

  • fe.log/beINFO/相应截图
  • 慢查询:
    • Profile信息
    • 并行度:show variables like ‘%parallel_fragment_exec_instance_num%’;
    • pipeline是否开启:show variables like ‘%pipeline%’;
    • be节点cpu和内存使用率截图
  • 查询报错:
  • be crash
    • be.out
  • 外表查询报错
    • be.out和fe.warn.log

从可视化的Profile上看实际耗时不大,但是 SINK 执行时间比较长,尝试通过修改
flush_thread_num_per_store
number_tablet_writer_threads
参数并没有明显性能提升,修改 pipeline_dop 后会导致 CN 进程内存超过限制。

profile2.txt (140.8 KB)

建议升级3.3最新版本存算分离测试一下,这块会有优化。

最新的 3.1.x 版本有回合吗

请问存算一体和存算分离,数据是一致的吗?

麻烦把存算一体的profile也发一下

数据是一致的

表的分区分桶数大概是多少呢?数据导入的频率高吗?

按天分区,默认分桶数
每天会执行一次这个SQL