starrocks的be经常假死,集群可读不可写

【详述】
服务使用stream_load方式,通过starrocks的be节点导入数据,写入的时候,通过slb写入三个be节点。
最近be经常假死,集群可以登录访问,可查询数据,但是没有新增数据。通过curl方式获取metric信息也卡住,超时,没有返回结果。
只能通过重启be节点恢复正常。
【是否存算分离】 未使用存算分离。
【StarRocks版本】例如:2.5.10
【集群规模】例如:3fe(3 follower)+3be(fe与be混部),高效云盘,数据表都是3副本。

当前be配置:

mem_limit = 12884901888
memory_limitation_per_thread_for_schema_change = 5
txn_commit_rpc_timeout_ms = 40000
thrift_rpc_timeout_ms = 20000

【机器信息】8C/16g
【联系方式】社区群4-雪碧
【附件】
be.out无异常报错
be.warning日志截图,
后面一直报 fragment_mgr.cpp:660] couldn’t get a client for TNetworkAddress(hostname=, port=0),直道be重启。

  • 并行度:
    show variables like ‘%parallel_fragment_exec_instance_num%’;
    parallel_fragment_exec_instance_num = 1

  • pipeline是否开启:show variables like ‘%pipeline%’;
    image

  • be节点cpu和内存使用率截图


可以在be卡住时打下pstack 。SRDebugUtil.tar.gz (43.4 MB) 解压后可以执行./bin/pstack $be_pid > pstack.log ##获取be线程并输出文件

20240119_pstack.log (706.4 KB)

今天凌晨be假死时,获得的pstack,麻烦帮分析一下。

对于这种通过stream_load导入大量数据的场景,有哪些参数配置可以优化。

辛苦升级到2.5的最新小版本,2.5.10存在的这个问题后续版本已经修复了
https://github.com/StarRocks/starrocks/pull/31746

那我升级到2.5.17版本吧,2.5.17版本应该修复该问题了吧

嗯嗯修复了,不过2.5.18也已经发布了,可以考虑下

好的,多谢