【详述】问题详细描述
当导入数据很大是,随着并行度的增加,导入性能会下降很多,stream load导入random分桶表时是否考虑增加load_to_single_tablet参数优化性能。
doris中有这个参数:
在使用 Random 分桶时,可以启用单分片导入模式(通过设置 load_to_single_tablet
为 true
)。这样,在大规模数据导入过程中,单个批次的数据仅写入一个数据分片,能够提高数据导入的并发度和吞吐量,减少因数据导入和压缩(Compaction)操作造成的写放大问题,从而确保集群稳定性。
clickhouse写入random分桶表时也有类似的优化参数。
【背景】做过哪些操作?
大数据量导入时,导入性能下降。
【业务影响】
【是否存算分离】
【StarRocks版本】例如:3.4.3
【集群规模】例如:3fe(1 follower+2observer)+5be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:48C/64G/万兆
【表模型】例如:主键模型
【导入或者导出方式】例如:Flink
【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息,请补充下您的联系方式,例如:社区群4-小李或者邮箱,谢谢
【附件】
- fe.log/be.INFO/相应截图
- 完整的报错异常栈