生产集群BE节点CPU忽然99%，导致连接超时

千千千千千 · 2023年05月15日 04:46

【详述】集群一直稳定运行很长时间，今天早晨9点时候出现6台服务器cpu 99%情况，

期间重新过所有的be和fe几点均没有作用，然后启用黑名单把sql语句中的几张表加入黑名单之后集群cpu现在正常了。现在我没有办法确认是由于我加了黑名单之后服务正常了，还是错误sql没有继续执行了，请问怎么能快速定位到这种问题是由于什么原因造成的？
【业务影响】集群查询非常慢，导致所有的请求都没有响应。
【StarRocks版本】例如：2.3.11
【集群规模】例如：3fe + 28be

Doni · 2023年05月15日 11:10

2.3集群默认开启了pipeline，可以在fe.audit.log中查看执行时间久，cpu和mem消耗大的 sql进行排查

dongquan · 2023年05月16日 11:34

使用 pstack 查看进程信息 - StarRocks 技术分享 / 经验教程 - StarRocks中文社区论坛 (mirrorship.cn) 可以参考这个这个帖子采集下pstack信息，提供下，top -Hp pid看下是哪些线程在运行