【副本均衡】3be集群扩到4be集群,副本均衡时间过长,请问有没有什么优化配置

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】
您好,生产环境上3FE+3BE节点,FE规格(16U+64G),BE规格(32U+128G)。
在扩节点之前BE节点规格:和图中红框类似,数据量可能会更高一点。

然后添加了一个同规格,同存储介质的BE节点。把所有导入任务都停止了,发现副本均衡非常慢。
速度:
从早上10点开始,到下午2点半目前感觉进度刚过半。

为什么停止数据导入?
目前发现副本均衡的时候,数据导入会变得非常慢,所以想停掉数据导入,快速解决副本均衡。

【背景】
把所有数据导入的任务都停掉了。
然后修改了两个参数:
tablet_sched_slot_num_per_path = 16
clone_worker_count = 16

tablet的数量:


每个tablet大小现在在5~6G的样子:
image

【业务影响】
副本均衡太慢,影响了数据导入。想了解一下看看能不能调整配置,倾斜资源,然后快速搞定副本均衡。因为目前来看be的cpu和内存使用都不算高

【是否存算分离】存算一体
【StarRocks版本】3.1.14
【集群规模】3fe(1 follower+2observer)+4be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:32C/128G/万兆
【联系方式】
邮箱yang_baojia@outlook.com
【附件】

遇到了同样的问题,目前还没找到好的解决方案

目前be的机器上clone的进程数,目前看是8个:
image

be的版本是自己编译过的么

  1. 可执行 show proc ‘/cluster_balance/running_tablets’; 和 show proc ‘/cluster_balance/history_tablets’; 查看迁移tablet的情况,迁移任务是否有 err_msg
  2. 可以考虑调大balance相关参数,根据节点磁盘个数调整(默认一块盘8个线程)
    FE leader 执行:ADMIN SET FRONTEND CONFIG (“tablet_sched_slot_num_per_path” = “64”);
    所有 BE 执行:curl -XPOST http://be_host:http_port/api/update_config?parallel_clone_task_per_path=64

嗯,be版本自己编译过,打开了PIE和bond now这两个选项,其它的修改对导入性能应该没有影响。
这两个选项应该影响不会这么大,感觉。

好的。对于建议2,等下构造场景验证一下。有啥结果反馈给您。

对于建议1的话,如果扩be节点和导入任务(导入频率非常高)同时进行,会出现一个问题,之前有篇帖子讨论过。如果需要我也可以再复现这个场景。

这样改完之后,均衡效率快了很多。大概2个小时左右的样子。
3节点(每节点7T)到4节点(每节点5T)