3.3.12版本fe oom, 监控显示老年代快速增大, proc_profile也很大

colagy · 2025年05月28日 06:18

为了更快的定位您的问题，请提供以下信息，谢谢
【详述】问题详细描述

fe mem_profile:
mem-profile-20250527-191732.html (1.6 MB) mem-profile-20250527-194204.html (111.5 KB)

【背景】做过哪些操作？
fe内存设置为容器内存设置为8G 堆内存配置为5.5G

【业务影响】
【是否存算分离】
【StarRocks版本】例如：3.3.12
【集群规模】例如：3fe（3 follower+0observer）+3be（fe与be混部）
【机器信息】CPU虚拟核/内存/网卡，例如：48C/64G/万兆
【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息，请补充下您的联系方式，例如：社区群16-可乐鸡或者邮箱，谢谢
【附件】

fe.log/beINFO/相应截图
慢查询：
- Profile信息，获取Profile，通过Profile分析查询瓶颈
- 并行度：show variables like ‘%parallel_fragment_exec_instance_num%’;
- pipeline是否开启：show variables like ‘%pipeline%’;
- be节点cpu和内存使用率截图
查询报错：
- query_dump，怎么获取query_dump文件
be crash
- be.out
- coredump，如何获取coredump
外表查询报错
- be.out和fe.warn.log

夏天12 · 2025年05月28日 06:58

关闭CBO全量采集，试试
enable_collect_full_statistic = false

colagy · 2025年05月28日 07:18

好的我们试下

colagy · 2025年05月28日 09:21

大佬帮忙看下刚才又重启了

mem-profile-20250528-171559.html (129.2 KB)

colagy · 2025年05月28日 09:24

正常的老年代也没有那么大就是突然一瞬间变大然后容器就重启了

夏天12 · 2025年05月28日 10:15

full gc了？看下gc日志，是不是jvm head堆内存不足，先把阈值调高一点，再排查为啥触发gc
fe.conf中的-Xmx***,改大一点试试

1.看刚才重启的fe进程，里面配置的jvm是多少，是G1策略吗
ps aux | grep ‘fe-’

2.看目前fe jvm head用了多少内存，
curl -XGET -s http://<fe_ip>:8030/metric | grep jvm_head

看下重启时的gc日志，当时爆的内存时多少
log/fe.gc.log

colagy · 2025年05月30日 02:54

容器内部启动的
容器内存8G Xmx=5500M 默认的g1 gc
heap

HELP jvm_heap_size_bytes jvm heap stat

TYPE jvm_heap_size_bytes gauge

jvm_heap_size_bytes{type=“max”} 5767168000
jvm_heap_size_bytes{type=“committed”} 5767168000
jvm_heap_size_bytes{type=“used”} 2092911616

gc.log
fe.gc.log.20250527-172702 (1.2 MB)

夏天12 · 2025年06月3日 15:22

这个日志我没有权限看，你可以尝试grep -i full 看下这个日志（当时报错的gc日志）是否存在full gc了