单机sr,fe节点总挂,jvm老年代使用率100%

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】单机sr,16C,32G,5T存储。1fe , 1be 。
做数据测试,通过 Stream Load ,导入本地csv文件,2000万行。一张主键表,时间分区,大概有2000+分区。

很快就导入完成了,然后。fe进程突然消失。

JAVA_OPTS="-Dlog4j2.formatMsgNoLookups=true -Xmx32g -XX:+UseZGC -XX:ZCollectionInterval=120 -XX:ZAllocationSpikeTolerance=4 -XX:-ZProactive -Xlog:safepoint=trace,classhisto*=trace,age*=info,gc*=info:file=${LOG_DIR}/gc-%t.log:time,level,tid,tags:filesize=50M -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=${LOG_DIR}/errorDump.hprof -XX:ErrorFile=${LOG_DIR}/hs_err_pid%p.log -Djava.security.policy=${STARROCKS_HOME}/conf/udf_security.policy"

日志没有报错,be还在。查了一下jvm 。 一开始使用量不大,后面突然增大到100 然后进程就消失了

啥情况

调整JAVA_OPTS 如下,重新观察
JAVA_OPTS="-Dlog4j2.formatMsgNoLookups=true -Xmx32g -XX:+UseZGC -Xlog:safepoint=trace,classhisto*=trace,age*=info,gc*=info:file=${LOG_DIR}/gc-%t.log:time,level,tid,tags:filesize=50M -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=${LOG_DIR}/errorDump.hprof -XX:ErrorFile=${LOG_DIR}/hs_err_pid%p.log -Djava.security.policy=${STARROCKS_HOME}/conf/udf_security.policy"

可以复现下,然后采集下jmap 看下jmap -histo pid

1:定位了,是因为我通过堡垒机链接,堡垒机断开后,关联进程全部被kill 了。 话说这个守护进程的启动方式是不是有问题?

2:调整了JAVA_OPTS 参数后,确实好多了,很稳妥。ZGC真是好用啊。基本不用做什么设置。

3:可能受限于我 1fe 1be 的测试机器原因, _stream_load 一次11个G的文件进去,不能太频繁。要观察be的日志,看合并情况。一个接一个,be会挂,或者超时

1赞