StarRocks集群偶发卡顿导致查询贼慢

【问题描述】StarRocks集群偶卡顿,查询贼慢
【StarRocks版本】2.3-rc
【集群规模】4fe(3 follower+1observer)+4be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡/磁盘,104C/384G/万兆网卡/10块SSD
【内存/磁盘分配情况】FE JVM分配 64G,BE mem_lim 配置 300G。FE使用单独1块SSD,其他9块磁盘分配给BE做数据存储。
【fe配置】fe.conf (3.9 KB)
【be配置】be.conf (2.7 KB)
【现象】集群偶尔出现查询非常慢的情况,一条SQL正常可能几百毫秒完成,但是卡的时候可能要几百秒。最近发生卡的时间:2022-10-27 12:00。发生卡的时候主动排查,发现监控指标都没有明显异常,CPU、内存、网络IO、磁盘IO都没明显变化。
我们有用Flink实时写入到StarRocks的主键模型表,写入参数配置如下:
sink.buffer-flush.max-bytes=94371840
sink.buffer-flush.max-rows=164000
sink.buffer-flush.interval-ms=30

如下集群的Grafana相关截图:
image
image


image
image
image
image
image

那个时间点在fe.audit.log看一下是不是慢SQL导致。
warning和out日志看看有没有报错。

fe.out 的信息

2.3-rc版本不是稳定版,建议升级至2.3最新版本

其他人使用也会有遇到这种情况。

我们使用的2.1.4 d965a4f 也会出现这样的情况,每天都会偶发的出现慢 sql,最高能到 10s,出现慢 sql 的时候资源都正常

解决了吗,我使用新版本也频繁遇到这个问题

哪个版本?卡顿是sql变慢还是?对应时间点的cpu、内存和io资源负载如何?

我也遇到这个问题,每过几个星期,就会出现卡顿,查询非常慢,过段时间什么都没干,又好了,3fe+3be部署,请问你们问题解决了嘛?