复杂查询在大并发量的情况下，直接把集群都搞挂了

cyq203 · 2022年04月6日 09:20

【详述】复杂查询在大并发量的情况下，直接把集群都搞挂了
【背景】单条查询的内存使用可能在1个g左右，当并发查询使用的内存量超出可用内存时，集群挂掉。
【业务影响】
【StarRocks版本】2.0.1

【附件】

shemplle · 2022年04月8日 03:46

并发大概在多少？集群配置怎么样呢？

cyq203 · 2022年04月8日 08:47

集群规模：3个节点，每个节点256G，48核，每个节点部署一个fe，be，broker.
并发量在50，应该是单个sql的内存使用量比较多。
并发量跟集群配置相关，这个是可以理解的，这边的问题可能是在于集群的稳定性比较差，在大并发量的场景下，集群资源不足（内存），是不是应该中断新的需求，而不是目前的整个集群挂掉。

sszc · 2022年04月10日 15:12

我在2.0.1的版本也碰到此问题，也是并发比较高时出现的。还好不是生产环境。

shemplle · 2022年04月11日 01:34

高并发场景下建议您将并行度设置为1，

set parallel_fragment_exec_instance_num = 1;

cyq203 · 2022年04月14日 07:33

（1）目前这个变量parallel_fragment_exec_instance_num 的值就是等于1；
（2）其实我想表达的是，starrocks集群在这种高并发的场景下，是很容易挂的；
（3）是不是有相关的优化，来提高集群的稳定性。能够处理在高并发的场景下，当集群资源不足时，集群应该是拒绝后续的请求，而不是像当前这样，整个集群都崩了。