突然查询很多慢查询

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】2024-06-17 14:40:40突然增加很多慢查询
【背景】无
【业务影响】
【是否存算分离】不是
【StarRocks版本】2.5.13
【集群规模】例如:3fe+5be
【机器信息】CPU虚拟核/内存/网卡,例如:64C/256G/万兆
【联系方式】社区群1-桌椅板 邓

be日志里一堆Fail to report exec state due to query not found

这个是be的日志https://yf-hw-platform.obs.cn-south-1.myhuaweicloud.com:443/sr/20240617/be.INFO.log.zip?AccessKeyId=6YD2YHPDMS0ANMIG7OJE&Expires=1749724491&Signature=eQALGSkWVnSjd7STyLDB8Z/hKVM%3D

这个是sr的监控

fe有warn
Jun 17, 2024 2:40:36 PM com.baidu.jprotobuf.pbrpc.transport.RpcTimerTask run
WARNING: correlationId:460969631 timeout with bound channel =>[id: 0x3e2ca215, L:/10.9.8.91:56882 - R:/10.9.8.95:8060]
Jun 17, 2024 2:40:36 PM com.baidu.jprotobuf.pbrpc.transport.RpcTimerTask run
WARNING: correlationId:460969632 timeout with bound channel =>[id: 0xd0a6f850, L:/10.9.8.91:32790 - R:/10.9.8.94:8060]
Jun 17, 2024 2:40:36 PM com.baidu.jprotobuf.pbrpc.transport.RpcTimerTask run
WARNING: correlationId:460969635 timeout with bound channel =>[id: 0xffd51592, L:/10.9.8.91:33650 - R:/10.9.8.98:8060]
Jun 17, 2024 2:41:26 PM com.baidu.jprotobuf.pbrpc.transport.RpcTimerTask run
WARNING: correlationId:460983636 timeout with bound channel =>[id: 0xa7567a9c, L:/10.9.8.91:51290 - R:/10.9.8.96:8060]

这个是fe+be的日志https://yf-hw-platform.obs.cn-south-1.myhuaweicloud.com:443/sr/20240617/20240617.zip?AccessKeyId=6YD2YHPDMS0ANMIG7OJE&Expires=1749728768&Signature=aiS0OD9kR2lvT5O/G8TENeLgDmA%3D

Fail to report exec state due to query not found

show variables like “%pipeline_dop%”; 现在dop设置的是多大,单节点cpu多少核,sed -n ‘/2024-06-16/,/2024-06-19/p’ fe.gc.log > fe.gc.log_0618 fe的最近的gc日志请提供下,您发的日志时间范围太大了

pipeline_dop是0,be的cpu是64c的

这个是其中一个fe的日志fe.gc.log.20240506-215557 (35.7 MB)

fe和be是混部的是么,可以把fe的jvm gc机制换成g1,xmx可以调大到32,和fe混部的be的mem_limit 调整到85%

没有混部

是因为gc太频繁了嘛

是的,当前gc比较频繁

好,我们配置下