fe早上突然宕机，2.5.17版本

czjzzzz · 2024年08月11日 10:17

为了更快的定位您的问题，请提供以下信息，谢谢
【详述】问题详细描述
【背景】做过哪些操作？
【业务影响】
【是否存算分离】
【StarRocks版本】2.5.17
【集群规模】例如：3fe（2 follower+1observer）+5be（fe与be分开部署）
【机器信息】fe 配置16C 64G内存，fe jvm 8g

故障大概发生在9：42左右，目前没有什么排查思路了。下面是日志文件

czjzzzz · 2024年08月11日 10:16

fe.gc.txt (246.2 KB) fe.log.txt (2.4 MB) fe.warn.log.txt (14.8 MB)

czjzzzz · 2024年08月12日 02:38

2024-08-11 09:43:58,266 WARN (nioEventLoopGroup-4-16|275) [HttpServerHandler.exceptionCaught():106] [remote=/10.30.16.5:49924] Exception caught: (JE 7.3.7) Commit policy: SIMPLE_MAJORITY required 1 replica. But none were active with this master. com.sleepycat.je.rep.InsufficientReplicasException: (JE 7.3.7) Commit policy: SIMPLE_MAJORITY required 1 replica. But none were active with this master.这个应该是挂的原因

LIANGCHAOHUA · 2024年08月12日 02:46

fe jvm 8g可以设置42G观察一下

czjzzzz · 2024年08月12日 03:20

fe 目前是和hadoop namenode混布的,42可能有点费劲。可以先调整增大些。

czjzzzz · 2024年08月12日 03:23

主要问题是现在是生产环境也有用户在用昨天出现一次已经不好解释了，观察下再出现影响不太好，能否帮忙分析下日志定位下根因，避免下。

xfworld · 2024年08月12日 07:44

fe jvm 8g 为啥这个只配置 8G ？

LIANGCHAOHUA · 2024年08月12日 08:44

跟那么多组件混部，内存也不足，判断原因意义不大，应该把FE独立部署