FE节点宕机，BE无法上报执行状态，整个集群不可写入

liguoyang · 2026年03月5日 09:39

【详述】
每隔几个月就会出现，其中一台FE节点不可用。
所有BE服务日志中，显示获取tablet失败，上报FE状态时，FE无法连接。
实际结果导致整个StarRocks集群无法写入。

W1217 17:15:46.927907 2099254 tablet_updates.cpp:3582] get_applied_rowsets(version 2268646) failed tablet:11034 #version:110 [2319310 2319407@109 2319407] #pending:0 cost (0/0/0)
W1217 17:15:46.927922 2099254 pipeline_driver.cpp:69] query_id=f8dfb333-db28-11f0-95fc-00163e08c004 fragment_id=f8dfb333-db28-11f0-95fc-00163e08c00b driver=driver_0_0, status=NOT_READY, operator-chain: [olap_scan_prepare_0_0x7fbe11c77010(O) -> noop_sink_0_0x7fbe11c77290(O)] prepare failed
W1217 17:15:46.927954 1091956 exec_state_reporter.cpp:164] Couldn’t get a client for TNetworkAddress(hostname=172.31.216.137, port=9020)
W1217 17:15:46.927963 1091956 pipeline_driver_executor.cpp:346] [Driver] Fail to report exec state: fragment_instance_id=f8ddb75e-db28-11f0-95fc-00163e08c005, status: Rpc error: Couldn’t open transport for 172.31.216.137:9020 (socket open() error: Connection refused)

【背景】
每次将宕机FE节点重启后，Startrocks集群恢复正常。
FE节点没有任何异常日志。SHOW PROC ‘/frontends’，显示FE健康。
BE节点日志有报错。

【业务影响】
【是否存算分离】否
【StarRocks版本】例如：3.3.0
【集群规模】3fe + 3be（fe与be混部）
【机器信息】8C/32G/万兆
【联系方式】邮箱：18310001109@163.com
【附件】

be.WARNING (32.8 KB)

夏天12 · 2026年03月9日 07:06

当时这个172.31.216.137是leader吗

liguoyang · 2026年03月10日 02:34

不确定了

夏天12 · 2026年03月10日 03:07

这个fe当时的日志还有吗，可以拿出来看看

贰佰小炎 · 2026年03月13日 07:52

是不是fe在full gc。可以看一下gc日志。
fe元数据和be数据目录是一个盘吗？如果是一个盘，be把磁盘io打满会影响fe读写元数据的，最好分成两个盘