bitmap_union_count(to_bitmap(`string`)) 与count(DISTINCT string) 查询结果不一致

背景:
明细表 对其中一个字段做精确去重,
该字段是为string类型的,类似uuid
长度在36到88不等。数据量去重前10亿左右,去重后1亿左右 ;存在重复

问题:
使用如下两种方法查询,查询结果不一致

1.bitmap_union_count(to_bitmap(string)) 结果量不到10w ,与底表不一致

2.count(DISTINCT string) 结果量在1亿左右,与底表一致

查询时间 bitmap略块一点点

有同学遇到过不 这种会是啥问题呢
查这种问题的思路是啥呀 感谢

bitmap_union_count(to_bitmap(to_base64(string)))
这样试下

to_bitmap 只能接收整数类型的字符串
to_bitmap(“1”) 这种的,其他类型的要用 bitmap_hash()

1赞

用bitmap_hash() 外层bitmap_union_count是丢数据 好像会有hash冲突

尝试了 也不行 解析不出来

bitmap现在只支持整型的,不支持string的,想要精确去重用count distinct 吧

2赞

2.4.0版本也不能支持string吗?