【Iceberg】收集NDV值并作为ColumnStatistic的优化效果

xavierbai · 2025年01月9日 03:02

【详述】
我们在测试StarRocks在读取Iceberg计算好的NDV值时，对各类SQL语句的优化效果。产生了一些困惑的点：

如何控制读取NDV前后的测试变量，避免在StarRocks除了NDV之外的其他的优化产生误差，从而导致测试结果不准确。
已知StarRocks会读取Iceberg statistics 中的NDV值，并且作为ColumnStatistics的distinctValue。那么这个distinct value会在哪些语句或算子来作为优化策略的影响因子，这些优化策略是什么？
StarRocks社区是否在对于Iceberg的NDV值的优化效果上做过相关测试，以便作为我们的参考，谢谢！

【是否存算分离】是存算分离
【StarRocks版本】3.3.6
【集群规模】例如：3fe（1 follower+2observer）+5be（fe与be混部）
【机器信息】
GNU/Linux AlmaLinux 8.8 (Sapphire Caracal) build 4.18.0-513.18.1.el8_9.x86_64

Intel Core Processor (Skylake, IBRS)
28 physical CPU package(s)
28 physical CPU core(s)
28 logical CPU(s)
Microarchitecture: Skylake (Client)
28 physical CPU package(s)
28 physical CPU core(s)
28 logical CPU(s)
Identifier: Intel64 Family 6 Model 94 Stepping 3

Vendor Frequency: 2 GHz
Max Frequency: 2.4 GHz
Memory: 119.1 GiB/156.9 GiB
Swap used: 0 bytes/0 bytes
【联系方式】tocreationbai@gmail.com