starrocks的be经常假死，集群可读不可写

zhangzhi · 2024年01月18日 09:32

【详述】
服务使用stream_load方式，通过starrocks的be节点导入数据，写入的时候，通过slb写入三个be节点。
最近be经常假死，集群可以登录访问，可查询数据，但是没有新增数据。通过curl方式获取metric信息也卡住，超时，没有返回结果。
只能通过重启be节点恢复正常。
【是否存算分离】未使用存算分离。
【StarRocks版本】例如：2.5.10
【集群规模】例如：3fe（3 follower）+3be（fe与be混部），高效云盘，数据表都是3副本。

当前be配置：

mem_limit = 12884901888
memory_limitation_per_thread_for_schema_change = 5
txn_commit_rpc_timeout_ms = 40000
thrift_rpc_timeout_ms = 20000

【机器信息】8C/16g
【联系方式】社区群4-雪碧
【附件】
be.out无异常报错
be.warning日志截图，
后面一直报 fragment_mgr.cpp:660] couldn’t get a client for TNetworkAddress(hostname=, port=0)，直道be重启。

并行度：
show variables like ‘%parallel_fragment_exec_instance_num%’;
parallel_fragment_exec_instance_num = 1
pipeline是否开启：show variables like ‘%pipeline%’;
be节点cpu和内存使用率截图