BE节点全部挂掉,3个be中有一个起不来!

【详述】问题详细描述

BE节点全部挂掉,3个be中有一个起不来
【背景】做过哪些操作?
【业务影响】
【StarRocks版本】例如:2.3.0
【集群规模】例如:1fe+3be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:48C/64G/万兆
【附件】
起不来的BE:

起的来的BE:


急需帮助!

已解决,安装 oraclejdk之后能起be了,不过还是不知道be挂的原因

今天一来发现三台be又挂了,并且其中一台还是起不来,用的是昨天装好的oraclejdk,报错还是一样。求大佬看一下

补充一下java版本:
java version “1.8.0_60”
Java™ SE Runtime Environment (build 1.8.0_60-b27)
Java HotSpot™ 64-Bit Server VM (build 25.60-b23, mixed mode)

报错版本现在是2.4.0
另外两个be也会挂掉,但是能起来,只是一段时间之后又会挂掉。

安装的时候,lib目录替换了吗?

升级2.4的时候,替换了,没替换之前的2.3也起不来

belog.txt (29.2 KB)
大佬可以看看这个日志不,有没有什么有用的信息

你开了swap ?

be.out完整发我下个?

be.out (49.6 KB)
这是挂了起不来的那台的be.out
swap是默认的,没开

看错误,还是java 安装配置的问题啊

  1. BE 启动不起来的原因,是在执行 ./bin/start_be.sh 的时候,环境变量 JAVA_HOME不是正确的JAVA_HOME,可以在./bin/start_be.sh前面强制指定下,可以解决这个问题。
/opt/module/starrocks/be/lib/starrocks_be: error while loading shared libraries: libjvm.so: cannot open shared object file: No such file or directory
  1. BE挂的原因,初步判断是混部导致的OOM。对于BE,如果所在机器上有其它占比较多内存的进程,需要配置下be.conf 中的 mem_limit。比如机器内存60G,其它进程占了20G,那么要配置 be.conf 中的 mem_limit=39G

注: 60(总内存)-20(预留其它进程占用的)-1 = 39G(预留1G,给OS)

可以通过 dmesg -T 看是否是 OOM

您好,我设置了mem_limit=90%,但还是会oom,请问我该怎么解决这个问题哇,
还是就是我有三个be,掉了一个节点,查询出来的数据会翻倍,正确的数据本是30746条,但查询出来61492,设置的replication_num = 3

新开一个帖子吧