3台机器，每天随机BE会挂

U_1638857471011_5891 · 2022年10月28日 03:32

【详述】问题详细描述
【背景】做过哪些操作？
【业务影响】
【StarRocks版本】例如：2.2.2
【集群规模】例如：1fe（1 followe）+3be（fe与be分开）
【机器信息】CPU虚拟核/内存/网卡，例如：8C/32G/千兆
【附件】

U_1638857471011_5891 · 2022年10月28日 03:57

有一个问题，我有3台be，因为资源问题，之前有些表建的2个replication_num，通过SHOW PROC “/statistic”;

看到有些副本不一致，

show tablet 2232354

SHOW PROC ‘/dbs/10050/195356/partitions/2232314/1889019/2232354’;

可以看到我副本正常，请问为什么还会走修复，tablet也是健康的
然后，可以看到任务被CANCELLED了

SHOW PROC ‘/cluster_balance/history_tablets’;

4113211 REPAIR HEALTHY CANCELLED VERY_HIGH VERY_HIGH -1 -1 -1 -1 0 2022-10-27 11:23:49 2022-10-27 11:24:31 2022-10-27 11:24:31 2022-10-27 11:24:31 1 0 -1 0 -1 0 tablet is healthy
但是这样IO突然变得很大，BE就可能挂掉

U_1638857471011_5891 · 2022年10月28日 03:44

28号早上5.12又挂了一次，

be.out没有异常，但是be.warning报tablet version is not fund

trueeyu · 2022年11月7日 04:22

dmesg -T 有OOM日志吗

U_1638857471011_5891 · 2022年11月7日 06:53

当天有，但是10月28号当时没有高的查询
但是后台有很多

U_1638857471011_5891 · 2022年11月7日 08:05

补充1：be.conf
补充2：

补充3：

trueeyu · 2022年11月7日 10:47

有混步吗，BE机器上有其它占内存的进程吗？

trueeyu · 2022年11月7日 10:47

给BE进程的可用内存，有多少？

trueeyu · 2022年11月7日 10:48

看下这个值是多少: cat /proc/sys/vm/overcommit_memory

trueeyu · 2022年11月7日 11:05

可以详细聊下这个问题吗？

U_1638857471011_5891 · 2022年11月8日 01:37

fe和be没有混步，be上装了dolphinscheduler

U_1638857471011_5891 · 2022年11月8日 01:37

cat /proc/sys/vm/overcommit_memory 返回0

U_1638857471011_5891 · 2022年11月8日 01:39

be内存限制32g*70%

trueeyu · 2022年11月8日 03:27

这个改成1，不然会OOM

trueeyu · 2022年11月8日 03:27

如果BE上面，没有其它占内存的进程的话，可以不配置这个，应该是overcommit_memory=0导致的

trueeyu · 2022年11月8日 03:28

dolphinscheduler 占了多少内存？

U_1638857471011_5891 · 2022年11月8日 03:33

dolphinscheduler给的内存很少，一共2个g

trueeyu · 2022年11月8日 03:49

那你这样配置 mem_limit=28G
(32G - 2G - 2G)这样

trueeyu · 2022年11月8日 03:50

overcommit_memory 一定要改成1

U_1638857471011_5891 · 2022年11月8日 03:52

之前be只给32*0.7=22.4G少了是吗