升级2.5.4 后 be 内存一直上涨,直到超出内存限制

【详述】starrocks 升级 2.5.4 后be 内存一直上涨,直到超出内存限制,重启也没用,重启后be 内存也是一直上涨
【背景】从 2.4.3 升级到 2.5.4
【业务影响】
【StarRocks版本】2.5.4
【集群规模】5fe(3 follower+2observer)+6be(fe与be独立部署)
【机器信息】16C/64G/千兆
【联系方式】社区6群-春江
【附件】

您好 麻烦帮忙确认下是否打开了 overrcommit_memory 如果没有打开需要开启下 echo “1”> /proc/sys/vm/overcommit_memory ,然后在麻烦您打下 pprof ,pprof --svg lib/starrocks_be http://BE_IP:BE_HTTP_PORT/pprof/heap?seconds=30 > a.svg

overrcommit_memory 是 1,
执行 pprof --svg lib/starrocks_be http://BE_IP:BE_HTTP_PORT/pprof/heap?seconds=30 > a.svg ,生成结果是空白的(已经重启看不到吗?)

我们最近修了一个内存泄漏的BUG,要不打个Patch试下?

请问这个问题最后如何解决?同样遇到内存一直上涨问题

这个问题还没解决

有没有试过升级3.0有没有用

3.0 还没有正式发布

pipeline 引擎问题,可关闭 pipeline 引擎暂时解决该问题,但是查询性能下降比较多
set global enable_pipeline_engine=false;
set global max_parallel_scan_instance_num=4;

我个人认为这个pipeline自从引入进来就问题不断,我们开发的同学反馈,以前1.18.1老版本可以正常跑的sql在升级后的2.2.x和2.3.x的版本里反而跑不出来。只有关闭pipeline才行,不知道3.0版本如何,3.0之前的版本我认为一直不成熟,有各种问题。官方发布pipeline功能只是过了他们的测试,至于在生成环境中的基于各种复杂情况下的表现是否符合预期并不确定,不太推荐使用。希望官方不要着急推新功能新特性,认真把已有的功能打磨好,不要让我们失望。

2赞

可以把跑不出来的case发出来一起看下

run.sql (22.6 KB)
explain_costs.txt (47.5 KB)
explain.txt (28.4 KB)
table_structure.sql (6.2 KB)
sql信息如上所示:
版本:2.3.8 , 40core,192g,千兆网,开启pipelien。3fe+8be
和1.18.1的区别是,1.18.1没有pipelein,而2.3.8是开启pipeline的,而且2.3.8的版本是fe和be分开部署,而1.18.1是混部总共是8台机器。

令人不解的是集群升了,却跑的慢了或者跑不出来了,同样的sql,同样的硬件环境,不同的sr版本而已,已经有4人以上反馈这个问题。

请参考提供的信息,没有profile可以提供。

1.18.1和2.3.8的profile都没有吗

2.3.8因为跑不出来所以没有profile,1.18.1版本的集群升级后就没有了,测试环境一般是租用一个月左右的第三方机器,验证升级没有问题就直接生产操作了。

我们中间还升了一个2.2.2的版本,开pipeline比关闭要慢,在那个版本了,是关闭pipeline的

pipeline使用建议在2.3版本之后

所以你的意思是现在的2.3.8还是关闭了?

另外我看结果集是3.9亿条?有看过网卡带宽吗?千兆网卡可能会打满

包括2.3版本,2.3及其之后版本开启