【详述】我们有一张5800W左右的标签宽表(ads_user_tag_20220617),该表采用明细模型,按照member_id字段hash分了60个bucket。我们发现当使用单个高基数字段member_id进行count distinct时,sql严重超时,最后执行了12分钟,但是使用两个字段(brand_code,member_id)进行count distinct时,100ms就能计算完成。麻烦帮忙看下什么问题
【背景】之前有使用2.2版本同样存在该问题,后降级为2.1.6
【StarRocks版本】2.1.6
【集群规模】3fe+4be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡:64C/128G/千兆
- 慢查询:
- 慢sql Profile信息慢sql profile.txt (220.8 KB)
- 正常sql Profile信息正常sql profile的副本.txt (292.0 KB)
- 并行度:parallel_fragment_exec_instance_num=64
- cbo是否开启:show variables like ‘%cbo%’;