sql执行不稳定,执行计划耗时统计不明确

【详述】针对一个聚合表根据hash key进行点查,查询时长时快时慢,查看较慢的执行计划,发现exchange到返回之间的时间间隔较长,但是计划中没有明确耗时
【背景】调整了执行的并行度,并没明显变化
【业务影响】迁移集群,老集群可以稳定15ms出结果,新集群不确定,耗时不确定,qps上不去
【StarRocks版本】2.2.2
【集群规模】3fe(3 follower)+5be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,192C/512G/万兆/AMD
【附件】

  • fe.warn.log/be.warn.log 没有特殊日志
  • 慢查询:
    • Profile信息
      profile.txt (21.1 KB)

    • 并行度:show variables like ‘%parallel_fragment_exec_instance_num%’;
      | parallel_fragment_exec_instance_num | 8 |

    • cbo是否开启:show variables like ‘%cbo%’;
      ±------------------------------------±------+
      | Variable_name | Value |
      ±------------------------------------±------+
      | cbo_cte_reuse | false |
      | cbo_enable_dp_join_reorder | true |
      | cbo_enable_greedy_join_reorder | true |
      | cbo_enable_low_cardinality_optimize | true |
      | cbo_enable_replicated_join | true |
      | cbo_max_reorder_node_use_dp | 10 |
      | cbo_max_reorder_node_use_exhaustive | 4 |
      | cbo_use_correlated_join_estimate | true |
      ±------------------------------------±------+

表信息:
聚合键:
AGGREGATE KEY(version, par_dt, roleid, instance_uuid)

聚合列:都是REPLACE_IF_NOT_NULL

hash分区:
DISTRIBUTED BY HASH(roleid) BUCKETS 70

疑问点:

FE规划查询计划/SQL解析也需要时间,你explain看下大概要多久呢

快的时候10ms,慢的时候20多ms;针对这个相对标准的聚合过滤sql,解析耗时正常吗?sql执行的profile也没有显示这一块的耗时

另外你这旧的集群profile发一下看看呢

提供一个querydump我们看一下,这个解析可能是有点慢了

dump_file (8.5 KB) (新集群)
新集群profile.txt (21.8 KB)
dump_file_old_cluster (8.5 KB) (老集群)
老集群profile.txt (21.8 KB)

这两个集群FE有什么diff吗

新集群fe节点配置更高,并且由于gc问题,把cms改成了g1,其他的没啥差别,新集群gc基本上都是年轻代gc,时间差不多在10ms以内