【求助】Stream Load大量导数导致集群不稳定

ikun · 2023年08月8日 02:28

【问题描述】我们目前使用的是seatunnel来进行ETL抽数的（hive_to_starrocks），在2023-08-07 20:18:28 - 2023-08-07 20:52:25这个时间，因为历史数据需要重新初始化，所以有大量的数据需要导入到starrocks（3-4亿），这里带来的问题影响是：我们的hive集群与starrocks集群部署在不同机房，所以大量的数据初始化导致机房之间的带宽被占满（如下监控图）也会导致starrocks集群CPU、内存波动导致集群不稳定。有没有什么好的办法限制这种因为大量的导数从而影响整个集群。我看官方文档中资源隔离是支持<导入计算资源隔离>，但是没有写的很详细，而且貌似还没有支持Stream Load的导入隔离？
【StarRocks版本】2.5.8
【集群规模】3fe+10be（fe与be混部）
【机器信息】：96C/256G/万兆

带宽被占满监控：

starrocks集群CPU、内存：

另外我们上个月也是因为导数导致集群的CPU和内存被打爆，官方有没有好的办法避免这种情况？

ikun · 2023年08月8日 08:59

有大佬帮忙解答吗？

yangrong · 2023年08月9日 02:06

可以启用资源隔离的功能，让后新建一个用户，限制其CPU / 内存的消耗，具体的操作可以参考文档

ikun · 2023年08月9日 02:48

我们是已经启用了用户的select 条件的CPU、内存的隔离，但是我想知道有没有Stream Load的导入隔离？

ikun · 2023年11月1日 03:03

@yuchen1019 有大佬解疑吗？

Liang · 2023年11月3日 04:04

Stream Load目前还不支持资源隔离

ikun · 2023年11月3日 09:25

那有没有其它方案？官方什么时候可以支持吗？这个应该是一个通病，不止是我一个人遇到过这种问题。

garden · 2023年11月29日 10:07

3.1.4版本的有办法限制吗，目前也是遇到了带宽瓶颈问题，影响整个集群

ikun · 2023年11月30日 08:21

没办法了，社区不管了

dongquan · 2023年11月30日 08:26

已经有相关pr，待合入。是通过stream load 直接导入本地文件么？目前通过flink导入可以限制导入的数据攒批大小

garden · 2023年12月1日 01:10

是insert load有些表的数据较大

dongquan · 2023年12月7日 06:55

set global pipeline_dop=0 // 设置为0自动设置BE核数的一半作为并行度，可以手动设置非0值，和查询的设置方式一致。可以把并行度调低些观察下