FE节点宕机,BE无法上报执行状态,整个集群不可写入

【详述】
每隔几个月就会出现,其中一台FE节点不可用。
所有BE服务日志中,显示获取tablet失败,上报FE状态时,FE无法连接。
实际结果导致整个StarRocks集群无法写入。

W1217 17:15:46.927907 2099254 tablet_updates.cpp:3582] get_applied_rowsets(version 2268646) failed tablet:11034 #version:110 [2319310 2319407@109 2319407] #pending:0 cost (0/0/0)
W1217 17:15:46.927922 2099254 pipeline_driver.cpp:69] query_id=f8dfb333-db28-11f0-95fc-00163e08c004 fragment_id=f8dfb333-db28-11f0-95fc-00163e08c00b driver=driver_0_0, status=NOT_READY, operator-chain: [olap_scan_prepare_0_0x7fbe11c77010(O) -> noop_sink_0_0x7fbe11c77290(O)] prepare failed
W1217 17:15:46.927954 1091956 exec_state_reporter.cpp:164] Couldn’t get a client for TNetworkAddress(hostname=172.31.216.137, port=9020)
W1217 17:15:46.927963 1091956 pipeline_driver_executor.cpp:346] [Driver] Fail to report exec state: fragment_instance_id=f8ddb75e-db28-11f0-95fc-00163e08c005, status: Rpc error: Couldn’t open transport for 172.31.216.137:9020 (socket open() error: Connection refused)

【背景】
每次将宕机FE节点重启后,Startrocks集群恢复正常。
FE节点没有任何异常日志。SHOW PROC ‘/frontends’,显示FE健康。
BE节点日志有报错。

【业务影响】
【是否存算分离】否
【StarRocks版本】例如:3.3.0
【集群规模】3fe + 3be(fe与be混部)
【机器信息】8C/32G/万兆
【联系方式】邮箱:18310001109@163.com
【附件】