3台机器,每天随机BE会挂

【详述】问题详细描述
【背景】做过哪些操作?
【业务影响】
【StarRocks版本】例如:2.2.2
【集群规模】例如:1fe(1 followe)+3be(fe与be分开)
【机器信息】CPU虚拟核/内存/网卡,例如:8C/32G/千兆
【附件】

2

有一个问题,我有3台be,因为资源问题,之前有些表建的2个replication_num,通过SHOW PROC “/statistic”;

看到有些副本不一致,

show tablet 2232354

SHOW PROC ‘/dbs/10050/195356/partitions/2232314/1889019/2232354’;

可以看到我副本正常,请问为什么还会走修复,tablet也是健康的
然后,可以看到任务被CANCELLED了

SHOW PROC ‘/cluster_balance/history_tablets’;

4113211 REPAIR HEALTHY CANCELLED VERY_HIGH VERY_HIGH -1 -1 -1 -1 0 2022-10-27 11:23:49 2022-10-27 11:24:31 2022-10-27 11:24:31 2022-10-27 11:24:31 1 0 -1 0 -1 0 tablet is healthy
但是这样IO突然变得很大,BE就可能挂掉

28号早上5.12又挂了一次,

be.out没有异常,但是be.warning报tablet version is not fund

dmesg -T 有OOM日志吗


当天有,但是10月28号当时没有高的查询
但是后台有很多

补充1:be.conf image
补充2:
image
补充3:
image

有混步吗,BE机器上有其它占内存的进程吗?

给BE进程的可用内存,有多少?

看下这个值是多少: cat /proc/sys/vm/overcommit_memory

可以详细聊下这个问题吗?

fe和be没有混步,be上装了dolphinscheduler

cat /proc/sys/vm/overcommit_memory 返回0

be内存限制32g*70%

这个改成1,不然会OOM

如果BE上面,没有其它占内存的进程的话,可以不配置这个,应该是overcommit_memory=0导致的

dolphinscheduler 占了多少内存?

dolphinscheduler给的内存很少,一共2个g

那你这样配置 mem_limit=28G
(32G - 2G - 2G)这样

overcommit_memory 一定要改成1

之前be只给32*0.7=22.4G少了是吗