【count distinct查询超时】一个5800W数据的表，当使用count distinct 单个字段（高基数）时，严重超时

U_1655635622751_5560 · 2022年06月19日 13:06

【详述】我们有一张5800W左右的标签宽表（ads_user_tag_20220617），该表采用明细模型，按照member_id字段hash分了60个bucket。我们发现当使用单个高基数字段member_id进行count distinct时，sql严重超时，最后执行了12分钟，但是使用两个字段(brand_code,member_id)进行count distinct时，100ms就能计算完成。麻烦帮忙看下什么问题
【背景】之前有使用2.2版本同样存在该问题，后降级为2.1.6
【StarRocks版本】2.1.6
【集群规模】3fe+4be（fe与be混部）
【机器信息】CPU虚拟核/内存/网卡：64C/128G/千兆

慢查询：
- 慢sql Profile信息慢sql profile.txt (220.8 KB)
- 正常sql Profile信息正常sql profile的副本.txt (292.0 KB)
- 并行度：parallel_fragment_exec_instance_num=64
- cbo是否开启：show variables like ‘%cbo%’;

JiangLai · 2022年06月20日 02:46

您好，请问建表sql方便发一下吗？

JiangLai · 2022年06月20日 05:38

您好，刚确认了一下这个问题已经修复了您这边可以等最新的2.2release