BE节点starrocks_be进程并发爆满导致查询缓慢或者超时

【详述】原版本3.4.3,因BE节点starrocks_be进程爆满导致查询慢,官方建议升级到3.5.15版本,升级后问题依旧。
3.4.3版本截图:


3.5.15截图:

【背景】从3.4.3版本升级到3.5.15版本
【业务影响】业务小表查询基本都1分钟以上。
【是否存算分离】是,存算分离,3fe+3be 独立部署。使用外部表hive catalog,paimon catalog。
【StarRocks版本】3.5.15
【集群规模】3fe+3be,独立部署,6台服务器。be节点112核心,120G内存
【机器信息】云服务器
【联系方式】论坛内联系
【附件】

  • fe.log/beINFO/相应截图
  • 慢查询:
    • Profile信息
    • 并行度:show variables like ‘%parallel_fragment_exec_instance_num%’;
      image
    • pipeline是否开启:show variables like ‘%pipeline%’;
      image
    • be节点cpu和内存使用率截图
  • 查询报错:
    SHOW PROC ‘/current_queries’;

你这个看起来是查询导致的,pip_scan_com和pip_exec_com都是查询相关的线程,看看你上面拿到的current_queries或者fe.audit.log里面CPU消耗比较大的sql,还有scanrows比较大的sql,如果有大数据量的扫描和复杂计算都会导致cpu被打满

老师,我查了当前查询,SHOW PROC ‘/current_queries’;没有大批量的查询,而且这种现象每天大概时间段为:早上8点到12点之间持续,我们的业务量主要是凌晨才有大量查询。白天的查询量反而不太大,您的意思是由查询引起的全表扫描一直持续吗?这个就很奇怪了。主要我这个是外部表,跟缓存失效有关吗?