升级2.4.5之后be内存变大,集群稳定性变差

【详述】问题详细描述 2.4.5be内存增加了10G左右,集群经常出现Mem usage has exceed the limit of BE的错误
【背景】做过哪些操作?2.4.0 升级到2.4.5
【业务影响】稳定性差
【StarRocks版本】例如:2.4.5
【集群规模】例如:3fe(1 follower+2observer)+9be(fe与be分开部)
【机器信息】CPU虚拟核/内存/网卡,例如:32C/128G/万兆
【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息,请补充下您的联系方式,例如:社区群12-金谡-jinsu@moojing.com
【附件】


  • fe.log/beINFO/相应截图
  • 慢查询:
    • Profile信息
    • 并行度:show variables like ‘%parallel_fragment_exec_instance_num%’;
    • pipeline是否开启:show variables like ‘%pipeline%’;
    • be节点cpu和内存使用率截图
  • 查询报错:
  • be crash
    • be.out

curl -XGET -s http://BE_IP:BE_HTTP_PORT/mem_tracker
内存占用高的节点执行
curl -XGET -s http://BE_IP:8040/metrics | grep “^starrocks_be_.*_mem_bytes|^starrocks_be_tcmalloc_bytes_in_use”

这个也取一下吧~~~~~~~~~~

由于内存开销过大,导致很多查询都出现资源不足的错误,已经回退版本了。

另外,测试中发现内存开销和page_cache的设置有关,继续调大page_cache,内存也会立马上涨; 而且page_cache设置低于25G时无效

对比2.4.0, 新版本大约增加了20多G的内存开销,请确认一下

PageCache 可以通过配置文件关闭

关闭后,有少量查询会变慢,也会出现资源不足的异常

重新升级2.4.5版本,关闭page_cache后集群稳定,资源开销也下降了