【详述】集群将BE从2.5.21升级至3.0.9之后,再升级FE时,第一个pod(fe-0)启动一段时间后,反复变成状态异常。
【背景】
前期用helm部署,后因BE不支持多磁盘关闭operator,手动管理设置STS。
12:58 ~ 13:10 BE 完成升级
13:10 修改 STS FE updateStrategy为 OnDelete (fe-2为leader)
13:11 修改STS FE image版本为3.0.9
13:12 执行kubectl delete po kube-starrocks-fe-0 , 启动失败
13:22 修改STS FE 恢复 image 版本2.5.21,再次 delete fe-0 触发重建pod
13:40 再次修改STS FE image 版本至3.0.9 ;fe-0重启后状态异常、手动删除 fe/meta/* 内容触发重启
13:42 ~ 15:19 观察到 fe-0 每间隔10多分钟就状态异常,k8s event 显示 均是startup probe failed。
15:00 观察BE unhealthyTabletNum 数量从2000+ 降为0.
15:23 修改STS FE ,回退2.5.21 ,fe-0 运行正常。
【业务影响】fe-0 异常期间,flink 连接/写入失败
【是否存算分离】 否
【StarRocks版本】v2.5.21 ==> v3.0.9
【集群规模】3fe(2 follower+ 1 leader)+3be
【机器信息】BE 16C/128G/万兆;FE 8C/32G/万兆
【联系方式】
【附件】
- fe.log 压缩文件 20250707.log.gz
- 13:42 升级后有短暂状态正常:
- 15:23 最终回退状态: