Paimon大表查询，Scan 阶段并发instance只有 3

starrrrrrrrrr · 2024年04月12日 10:28

【详述】查询一个paimon 大表非常慢，表总数据行数大约22 亿，集群 100 个 backends节点，查看 profile发现数据 scan只有 3 实例运行，如何充分利用集群节点增加查询并发？查询 iceberg表，scan阶段则有 100 实例运行，不确定是否是 paimon catalog 实现的问题？
paimon 表 200 bucket
查询语句 select count(1) from paimon.xxx.xxxx;
【StarRocks版本】3.2.4
【集群规模】1fe +100 be
@trueeyu @yuchen1019 @Doni 帮忙看下感谢

starrrrrrrrrr · 2024年04月12日 09:51

starrrrrrrrrr · 2024年04月12日 09:57

profile (60.8 KB)

starrrrrrrrrr · 2024年04月12日 10:09

starrrrrrrrrr · 2024年04月15日 08:50

大致定位到原因了，com.starrocks.qe.HDFSBackendSelector.HdfsScanRangeHasher#acceptScanRangeLocations没有考虑到paimon

下面是一个 paimon的THdfsScanRange具体信息，没有一个条件命中com.starrocks.qe.HDFSBackendSelector.HdfsScanRangeHasher#acceptScanRangeLocations中的primitiveSink，所以最终所有 paimon THdfsScanRange计算的 hash 值都是 0

com.starrocks.qe.HDFSBackendSelector.HdfsScanRangeHasher#acceptScanRangeLocations

因为 hash值都是 0，所以 hashring 返回的始终是同一组 backend, com.starrocks.qe.HDFSBackendSelector#computeScanRangeAssignment中

一个修复思路是把 split bucket 信息放入THdfsScanRange，根据 bucket 信息做 hash
com.starrocks.planner.PaimonScanNode#addSplitScanRangeLocations

提交 issue

linhao · 2024年04月15日 08:37

非常棒的分析，希望社区能尽快修复一下

wangriyu · 2024年04月19日 06:51

感谢反馈：在这个pr里一起修复：https://github.com/StarRocks/starrocks/pull/44330