INSERT INTO FILE方式导出数据，优化分批处理

luca_qiaoyang · 2025年12月24日 06:32

为了更快的定位您的问题，请提供以下信息，谢谢
【详述】

有个StarRocks表，我每天需要把数据用INSERT INTO FILE的方式写入到HIVE里去，但是数据量特别大，我只能分批去写入每次写一部分，即使这样有时也会因资源不足而失败。
建表时有DISTRIBUTED BY HASH(col_1, col_2)，有没有什么方式，可以应用这个点，更精准的实现分批的导出？
比如我现在是对col_1做hash取模再分批的，但实际query的量仍然巨大。怎样能直接对(col_1, col_2)处理，精准的命中数据块呢？相当于是query时不再扫码全部数据，而可以应用DISTRIBUTED BY HASH的优势只扫码该次分批的数据。

【背景】
【业务影响】因数据量巨大，经常因资源问题导致任务失败
【是否存算分离】存算一体
【StarRocks版本】例如：3.3.9
【集群规模】例如：3fe+5be
【机器信息】BE：32C/128G/万兆
【表模型】例如：明细模型
【导入或者导出方式】例如：INSERT INTO FILE
【联系方式】qiaoyang@deepway.ai
【附件】