关于sr的be频繁挂的问题

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】sr的be频繁挂
【背景】以前2.5也挂,升级到3.1.2,凌晨挂的频繁了


【业务影响】
【StarRocks版本】例如:3.1.2
【集群规模】例如:3fe+3be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:16C/64G/万兆
【附件】

  • fe.log/beINFO/相应截图
    • 并行度:show variables like ‘%parallel_fragment_exec_instance_num%’;
    • pipeline是否开启:show variables like ‘%pipeline%’;

      be内存 mem_limit=48g 其实最大才用了40g

be.out. 老报空指针


I1114 19:02:53.021221 30260 compaction_manager.cpp (67.0 KB)
00:59:03 重启了be

这个13:10 重启
链接: https://pan.baidu.com/s/1_Lz-XXCswiDpNhTWHBz67A 提取码: 9d7h
–来自百度网盘超级会员v5的分享

我从日志里没看出什么报错。以为是系统杀的。但是给be.conf里加了mem_limit=48g 后,还是挂了。我fe 12g。总内存62g

dmesg -T 的结果
123.ttx (875.2 KB)

这个有什么排查思路吗

[Tue Nov 14 14:01:52 2023] Out of memory: Kill process 9576 (compact_sched) score 714 or sacrifice child
日志最后都是OOM,把mem_limit设置为40G观察一下吧。是不是服务器上还有很多其他软件在用


大佬你看我这个anon-rss 还是高 ,我现在是40g 是不是mem_limit =40g 没有管住

通过top看下哪个进程占内存很高吧