【详述】集群一直稳定运行很长时间,今天早晨9点时候出现6台服务器cpu 99%情况,
期间重新过所有的be和fe几点均没有作用,然后启用黑名单把sql语句中的几张表加入黑名单之后集群cpu现在正常了。现在我没有办法确认是由于我加了黑名单之后服务正常了,还是错误sql没有继续执行了,请问怎么能快速定位到这种问题是由于什么原因造成的?
【业务影响】集群查询非常慢,导致所有的请求都没有响应。
【StarRocks版本】例如:2.3.11
【集群规模】例如:3fe + 28be
【详述】集群一直稳定运行很长时间,今天早晨9点时候出现6台服务器cpu 99%情况,
2.3集群默认开启了pipeline,可以在fe.audit.log中查看执行时间久,cpu和mem消耗大的 sql进行排查
使用 pstack 查看进程信息 - StarRocks 技术分享 / 经验教程 - StarRocks中文社区论坛 (mirrorship.cn) 可以参考这个这个帖子采集下pstack信息,提供下,top -Hp pid看下是哪些线程在运行