存算分离并发查询性能很差

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】存算分离集群 1 张 60 亿的表,点查 3 秒左右,并发稍微大一点,查询耗时久几分钟
【背景】点查、10 并发、20 并发
【业务影响】
【是否存算分离】是
【StarRocks版本】例如:3.3.2
【集群规模】例如:3fe(1 follower+2observer)+9be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:26C/64G/万兆
【联系方式】邮箱:superchijinpeng@gmail.com
【附件】

  • Profile信息,profile.yaml (52.0 KB)

  • 并行度:show variables like ‘%parallel_fragment_exec_instance_num%’; 16
    show variables like ‘%pipeline_dop%’; 0 1 4 都尝试了,都不行

  • pipeline是否开启:show variables like ‘%pipeline%’; 开启了

  • 执行计划:explain costs + sql

  • be节点cpu和内存使用率截图

火焰图:flamegraph

版本有点老, 试试3.3.5

另外发一下磁盘IO监控看看.

3.3.2 版本还老吗

profile里看到各个节点IO不均衡, 本地磁盘IO占用了绝大多数时间.

监控上也能看到一个节点上的IO到1.33K io/s, 其它相对比较低. 属于比较典型的查询IO热点问题.

这时所有点的 IO