部分场景下broker load速度特别慢 SR 2.3

用外部表写入只要九秒钟

672个也不算多

这是你们正在处理的那个问题么? 大概什么版本修复?

我找我们的同学跟进下

能提供一下这个导入时间段的fe日志吗

load信息


对应时间点: 2022-09-05 07:31:44 ~ 2022-09-05 07:53:24 label = p00002_ds_pms_hotel_main_factor1662334302243 表名: ds_pms_hotel_main_factor
对应FE日志:
1.log (4.1 MB)

这个导入慢是稳定复现吗,你修改一下FE的配置min_bytes_per_broker_scanner= 16777216试一下导入时间有什么变化。

稳定的,每次都差不多这个时间, 这个值放成16M 会不会对其他的load有影响,两千多个任务 就只有几个会比较慢。

基本没有影响,如果有其他环境可以在其他环境里验证,感觉和数据集有关。也可以在没有其他导入的时候单独建个表验证一下。

快很多了 这从只要四分钟了 ,但是还是赶不上外部表做insert 外部表直接insert只要九秒

大佬,这还是因为小文件的问题么? 另外还有提升空间么? 外部表只要九秒, broker这里还是慢了些, 或者是不是还可以将这个参数再放小点?


这里也还有一张,表字段584个 数据两万多 broker 也需要花费四五分钟 ds_ext_finance_main_factor

你可以直接使用外表的方式进行导入么?

之前测试外部表用久了会有GC问题,才转成load方式没多久,另外如果用外部表如果我基于分区做过滤条件这个条件会下沉到hdfs文件过滤上去么? 因为会存在多线程同时操作一张表的场景。

会的,外部表做了很多优化,分区裁剪这些都是必须的。甚至你可以直接针对外部表进行分析。新版本里面也不需要直接建表,可以直接通过catalog方式创建

定位到原因或者方式可以解决么? 不然我这边从应用层处理下,只针对这部分慢的用外部表。

另外外部表是我们重点发展的一个方向。如果你们使用过程中遇到问题我们也会努力改进的

你方便把数据给我们一份么?

好的,那我从应用层也处理下吧,麻烦了 :handshake:

这是生产的数据,不太方便外传 :sweat_smile: