【详述】BE其中某个节点CPU被打满,其他节点CPU很低,内存和磁盘IO没啥波动
【背景】
【业务影响】
【是否存算分离】否
【StarRocks版本】3.1.17
【集群规模】3fe(3follower)+6be(fe与be分开部署)
【机器信息】CPU虚拟核/内存/网卡,例如:16C/64G/万兆


老哥,你们这问题有解法吗
同样遇到此问题,生产环境突然爆一个节点cpu阀值告警,登录查看是be进程,但是没有业务在跑。
可能是内表倾斜
是发现有个别表分桶字段不合理,桶太大了,数据倾斜了
-
登陆到对应的BE,使用 Top -Hp $pid 查看当前CPU占用的线程是什么
-
打印Pstack
-
找到对应的BE,登陆后收集日志
cd/be/log
grep 'cpu costs' be.INFO > /tmp/be.INFO.log
- 找出问题期间cpu costs排名前几的query id,分析对应的sql