【问题描述】StarRocks集群偶卡顿,查询贼慢
【StarRocks版本】2.3-rc
【集群规模】4fe(3 follower+1observer)+4be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡/磁盘,104C/384G/万兆网卡/10块SSD
【内存/磁盘分配情况】FE JVM分配 64G,BE mem_lim 配置 300G。FE使用单独1块SSD,其他9块磁盘分配给BE做数据存储。
【fe配置】fe.conf (3.9 KB)
【be配置】be.conf (2.7 KB)
【现象】集群偶尔出现查询非常慢的情况,一条SQL正常可能几百毫秒完成,但是卡的时候可能要几百秒。最近发生卡的时间:2022-10-27 12:00。发生卡的时候主动排查,发现监控指标都没有明显异常,CPU、内存、网络IO、磁盘IO都没明显变化。
我们有用Flink实时写入到StarRocks的主键模型表,写入参数配置如下:
sink.buffer-flush.max-bytes=94371840
sink.buffer-flush.max-rows=164000
sink.buffer-flush.interval-ms=30
如下集群的Grafana相关截图:




