部分场景下broker load速度特别慢 SR 2.3

大佬,这还是因为小文件的问题么? 另外还有提升空间么? 外部表只要九秒, broker这里还是慢了些, 或者是不是还可以将这个参数再放小点?


这里也还有一张,表字段584个 数据两万多 broker 也需要花费四五分钟 ds_ext_finance_main_factor

你可以直接使用外表的方式进行导入么?

之前测试外部表用久了会有GC问题,才转成load方式没多久,另外如果用外部表如果我基于分区做过滤条件这个条件会下沉到hdfs文件过滤上去么? 因为会存在多线程同时操作一张表的场景。

会的,外部表做了很多优化,分区裁剪这些都是必须的。甚至你可以直接针对外部表进行分析。新版本里面也不需要直接建表,可以直接通过catalog方式创建

定位到原因或者方式可以解决么? 不然我这边从应用层处理下,只针对这部分慢的用外部表。

另外外部表是我们重点发展的一个方向。如果你们使用过程中遇到问题我们也会努力改进的

你方便把数据给我们一份么?

好的,那我从应用层也处理下吧,麻烦了 :handshake:

这是生产的数据,不太方便外传 :sweat_smile:

明白,我们自己尝试复现下,估计跟你的数据特征有关系。外表这里做过不少优化

希望对你有所帮助,
这是样例数据:


比较常见的维度 + 度量的数据集数据,里面字段都是比较长的名字,不知道这个有没有影响

这是建表语句:
create.sql (46.4 KB)

维度数据中有中文,长度基本上在100字节内

感谢,你们这个导入慢的有多少文件?每个文件大概多大?

总共42个文件

数据文件是orc格式

ORC导入在列比较少的场景下速度怎么样

也有些列多的的快,但是慢的基本上是列比较多的,目前差不多1200个模型需要做load,就五六个有这种情况,数据量不大但是速度慢得很,之前测试80来个字段5亿的数据也就不到20分钟。

该问题在orc列特别多(并且其中存在大量的varchar或者decimal字段)的时候会出现,造成的原因是太多的随机IO
修复pr:https://github.com/StarRocks/starrocks/pull/11380

:+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: :+1: