BE其中某个节点CPU打满

【详述】BE其中某个节点CPU被打满,其他节点CPU很低,内存和磁盘IO没啥波动
【背景】
【业务影响】
【是否存算分离】否
【StarRocks版本】3.1.17
【集群规模】3fe(3follower)+6be(fe与be分开部署)
【机器信息】CPU虚拟核/内存/网卡,例如:16C/64G/万兆
765EAFE3-98B3-4b66-8193-CB9EDCF4EB5D
image

老哥,你们这问题有解法吗

同样遇到此问题,生产环境突然爆一个节点cpu阀值告警,登录查看是be进程,但是没有业务在跑。

可能是内表倾斜

是发现有个别表分桶字段不合理,桶太大了,数据倾斜了

  1. 登陆到对应的BE,使用 Top -Hp $pid 查看当前CPU占用的线程是什么

  2. 打印Pstack

  3. 找到对应的BE,登陆后收集日志

cd/be/log
grep 'cpu costs' be.INFO > /tmp/be.INFO.log
  1. 找出问题期间cpu costs排名前几的query id,分析对应的sql