为了更快的定位您的问题,请提供以下信息,谢谢
【详述】2024-06-17 14:40:40突然增加很多慢查询
【背景】无
【业务影响】
【是否存算分离】不是
【StarRocks版本】2.5.13
【集群规模】例如:3fe+5be
【机器信息】CPU虚拟核/内存/网卡,例如:64C/256G/万兆
【联系方式】社区群1-桌椅板 邓
be日志里一堆Fail to report exec state due to query not found
这个是be的日志https://yf-hw-platform.obs.cn-south-1.myhuaweicloud.com:443/sr/20240617/be.INFO.log.zip?AccessKeyId=6YD2YHPDMS0ANMIG7OJE&Expires=1749724491&Signature=eQALGSkWVnSjd7STyLDB8Z/hKVM%3D
fe有warn
Jun 17, 2024 2:40:36 PM com.baidu.jprotobuf.pbrpc.transport.RpcTimerTask run
WARNING: correlationId:460969631 timeout with bound channel =>[id: 0x3e2ca215, L:/10.9.8.91:56882 - R:/10.9.8.95:8060]
Jun 17, 2024 2:40:36 PM com.baidu.jprotobuf.pbrpc.transport.RpcTimerTask run
WARNING: correlationId:460969632 timeout with bound channel =>[id: 0xd0a6f850, L:/10.9.8.91:32790 - R:/10.9.8.94:8060]
Jun 17, 2024 2:40:36 PM com.baidu.jprotobuf.pbrpc.transport.RpcTimerTask run
WARNING: correlationId:460969635 timeout with bound channel =>[id: 0xffd51592, L:/10.9.8.91:33650 - R:/10.9.8.98:8060]
Jun 17, 2024 2:41:26 PM com.baidu.jprotobuf.pbrpc.transport.RpcTimerTask run
WARNING: correlationId:460983636 timeout with bound channel =>[id: 0xa7567a9c, L:/10.9.8.91:51290 - R:/10.9.8.96:8060]
这个是fe+be的日志https://yf-hw-platform.obs.cn-south-1.myhuaweicloud.com:443/sr/20240617/20240617.zip?AccessKeyId=6YD2YHPDMS0ANMIG7OJE&Expires=1749728768&Signature=aiS0OD9kR2lvT5O/G8TENeLgDmA%3D
Fail to report exec state due to query not found
show variables like “%pipeline_dop%”; 现在dop设置的是多大,单节点cpu多少核,sed -n ‘/2024-06-16/,/2024-06-19/p’ fe.gc.log > fe.gc.log_0618 fe的最近的gc日志请提供下,您发的日志时间范围太大了
pipeline_dop是0,be的cpu是64c的
fe和be是混部的是么,可以把fe的jvm gc机制换成g1,xmx可以调大到32,和fe混部的be的mem_limit 调整到85%
没有混部
是因为gc太频繁了嘛
是的,当前gc比较频繁
好,我们配置下