cpu 异常飙升

qyk123 · 2024年11月20日 03:08

为了更快的定位您的问题，请提供以下信息，谢谢
【详述】大部分be节点的cpu激增
【背景】集群中，streamload、routineload job都有，表模型基本是主键模型
【业务影响】
【是否存算分离】否
【StarRocks版本】3.3.5
【集群规模】例如：3fe + 6be（fe与be混部）
【机器信息】CPU虚拟核/内存/网卡，例如：80C/256G/万兆
【联系方式】
【附件】
top

qyk123 · 2024年11月20日 03:11

@trueeyu 老师，我们这个cpu问题，麻烦看看，一直存在，找不到原因

qyk123 · 2024年11月20日 03:14

trueeyu · 2024年11月20日 03:42

sudo perf top -g > a.txt 获取个30s的

trueeyu · 2024年11月20日 03:44

然后看下机器有几个Numa

qyk123 · 2024年11月20日 03:46

Numa 是指的这个嘛？

trueeyu · 2024年11月20日 03:47

cat /proc/meminfo | grep -i numa

trueeyu · 2024年11月20日 03:48

64核机器？

qyk123 · 2024年11月20日 03:49

命令执行，显示为空 1732074540438

qyk123 · 2024年11月20日 03:50

80C

qyk123 · 2024年11月20日 03:50

perf log, a.txt (1.9 MB)

qyk123 · 2024年11月20日 05:42

@trueeyu 这份perf 刚抓的，cpu又是异常飙升至 6000%+的那种，现在又突然降下来了a (2).txt (3.5 MB)

trueeyu · 2024年11月20日 05:58

有超大的宽表？

qyk123 · 2024年11月20日 06:03

有一个近60个字段的宽表（每小时写入）,数据量在1亿左右，其余应该都是字段十多个的那种

trueeyu · 2024年11月20日 06:07

show backends; 看下有多少tablet

屠夫小李 · 2024年11月20日 07:21

我也遇到了这个问题，同样一份数据routine load写到3.2.2版本的集群里没有问题，写到3.2.9版本的灾备集群就update_apply线程把cpu占完了

kaijian · 2024年11月21日 08:59

是否是有非常大的主键表？比如未分区的大主键表，或者分区的主键表但历史分区一直在更新？
按照使用经验，主键表如果一直在大数据量更新，cpu和io都会飙升

qyk123 · 2024年11月21日 09:02

有几张几亿的数据分区表，频率会在小时级别的spark 全量load，难不成是这原因？