经常出现be节点假死情况,查询大批量超时

【详述】生产环境经常出现be节点假死情况,导致大批量查询超时。


【业务影响】
【StarRocks版本】例如:2.3.7
【集群规模】例如:3fe + 28be
【附件】

出现同样的现象,求助求助
StarRocks version:2.3.7
业务背景:每天凌晨5~8点 导数高峰期
现象:此时间段频繁出现BE DEAD,2分钟内自动恢复DEAD,BE节点没有DOWN,没有DOWN。 声明 内存、CPU、IO 使用率在50%也下。并且对应时间出现副本不健康。

日志:20230603 06:03出现DEAD


be.warn.20230606 06-03.dead.log (7.7 KB)

假死一般出现在stream load导入高峰期,可以通过调大这几个参数优化一下:
brpc_num_threads
number_tablet_writer_threads
transaction_publish_version_worker_count
webserver_num_workers