并且我手动执行这些突增里的慢查询SQL,实际上很快响应,所以不是SQL自身的原因。
目前怀疑是线程/资源到达了瓶颈,或者因为其他原因阻塞了线程,导致平时很快响应的SQL在那一分钟的那几秒响应的很慢。
期望通过调整配置解决这个问题
已经排除了磁盘IO的干扰,磁盘IO一直很平均,没有一个有规律的明显波动
还有一个怀疑方向是读写锁,要查询的文件在那个时刻被写锁占用了,导致不能读取,因此读锁需要等待写锁释放导致变慢了。
集群目前跑的任务多吗?并发高不高?
任务很多,并发也蛮高的,查询差不多100qps
直接贴的那个不全,我先大致看下
你关闭 pipeline的时候 parallel_fragment_exec_instance_num 值是1吗?
是的
set global pipeline_dop = 1. 后再看看。
要打开pipeline引擎再试试吗
嗯嗯,打开 pipeline 引擎,然后 set global pipeline_dop = 1 再试试看
配置好了,打开了引擎,观测十几分钟应该就能看出效果
我还顺便配置了pipeline_profile_level = 2,这样输出的profile信息全一些
您方便上传一个耗时比较久的 pipeline profile 吗?
我接下来把pipeline关了,在和自身对比一下,输出一个profile