V3.0.0 存算分离 FE leader起不来 be正常 另外的fe也正常但是服务不正常 升级到3.0.5 leader 起来报错如下

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】 V3.0.0 存算分离 FE leader起不来 be正常 另外的fe也正常但是服务不正常 升级到3.0.5 leader 起来报错如下
【背景】v3.0 重启整个集群可以短暂恢复几分钟查询正常后down掉。
【业务影响】 影响到目前线上秘鲁国家的正常数据访问和数据建模以及风控指标计算和报表产出
【StarRocks版本】例如:3.0.0 升级到了3.0.5
【集群规模】例如:3fe(1 leader+1 follower+1observer)+3be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:16C/64G/万兆
【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息,请补充下您的联系方式,例如:社区群9 Jarry + jarryqian@lexin.com
【附件】
未升级前 3.0.0 有效运行三个月之后报错如下

升级到 3.0.5 之后 启动leader节点报错如下: 其他两个节点正常启动
2023-08-16 23:26:55,710 ERROR (stateChangeExecutor|73) [GlobalStateMgr.transferToLeader():1148] failed to init journal after transfer to leader! will exit
com.google.gson.JsonSyntaxException: java.lang.IllegalStateException: Expected BEGIN_OBJECT but was STRING at line 1 column 91 path $.p.m2.
at com.google.gson.internal.bind.ReflectiveTypeAdapterFactory$Adapter.read(ReflectiveTypeAdapterFactory.java:226) ~[spark-dpp-1.0.0.jar:?]
at com.starrocks.persist.gson.GsonUtils$ProcessHookTypeAdapterFactory$1.read(GsonUtils.java:641) ~[starrocks-fe.jar:?]
at com.google.gson.internal.bind.TypeAdapterRuntimeTypeWrapper.read(TypeAdapterRuntimeTypeWrapper.java:41) ~[spark-dpp-1.0.0.jar:?]
at com.google.gson.internal.bind.MapTypeAdapterFactory$Adapter.read(MapTypeAdapterFactory.java:186) ~[spark-dpp-1.0.0.jar:?]
at com.google.gson.internal.bind.MapTypeAdapterFactory$Adapter.read(MapTypeAdapterFactory.java:145) ~[spark-dpp-1.0.0.jar:?]
at com.starrocks.persist.gson.GsonUtils$ProcessHookTypeAdapterFactory$1.read(GsonUtils.java:641) ~[starrocks-fe.jar:?]
at com.google.gson.internal.bind.ReflectiveTypeAdapterFactory$1.read(ReflectiveTypeAdapterFactory.java:131) ~[spark-dpp-1.0.0.jar:?]
at com.google.gson.internal.bind.ReflectiveTypeAdapterFactory$Adapter.read(ReflectiveTypeAdapterFactory.java:222) ~[spark-dpp-1.0.0.jar:?]
at com.starrocks.persist.gson.GsonUtils$ProcessHookTypeAdapterFactory$1.read(GsonUtils.java:641) ~[starrocks-fe.jar:?]
at com.google.gson.internal.bind.ReflectiveTypeAdapterFactory$1.read(ReflectiveTypeAdapterFactory.java:131) ~[spark-dpp-1.0.0.jar:?]
at com.google.gson.internal.bind.ReflectiveTypeAdapterFactory$Adapter.read(ReflectiveTypeAdapterFactory.java:222) ~[spark-dpp-1.0.0.jar:?]
at com.starrocks.persist.gson.GsonUtils$ProcessHookTypeAdapterFactory$1.read(GsonUtils.java:641) ~[starrocks-fe.jar:?]
at com.google.gson.Gson.fromJson(Gson.java:963) ~[spark-dpp-1.0.0.jar:?]
at com.google.gson.Gson.fromJson(Gson.java:928) ~[spark-dpp-1.0.0.jar:?]
at com.google.gson.Gson.fromJson(Gson.java:877) ~[spark-dpp-1.0.0.jar:?]
at com.google.gson.Gson.fromJson(Gson.java:848) ~[spark-dpp-1.0.0.jar:?]
at com.starrocks.persist.UserPrivilegeCollectionInfo.read(UserPrivilegeCollectionInfo.java:75) ~[starrocks-fe.jar:?]
at com.starrocks.journal.JournalEntity.readFields(JournalEntity.java:990) ~[starrocks-fe.jar:?]
at com.starrocks.journal.bdbje.BDBJournalCursor.deserializeData(BDBJournalCursor.java:251) ~[starrocks-fe.jar:?]
at com.starrocks.journal.bdbje.BDBJournalCursor.next(BDBJournalCursor.java:295) ~[starrocks-fe.jar:?]
at com.starrocks.server.GlobalStateMgr.replayJournalInner(GlobalStateMgr.java:2144) ~[starrocks-fe.jar:?]
at com.starrocks.server.GlobalStateMgr.replayJournal(GlobalStateMgr.java:2104) ~[starrocks-fe.jar:?]
at com.starrocks.server.GlobalStateMgr.transferToLeader(GlobalStateMgr.java:1143) ~[starrocks-fe.jar:?]
at com.starrocks.server.GlobalStateMgr.access$100(GlobalStateMgr.java:325) ~[starrocks-fe.jar:?]
at com.starrocks.server.GlobalStateMgr$1.transferToLeader(GlobalStateMgr.java:722) ~[starrocks-fe.jar:?]
at com.starrocks.ha.StateChangeExecutor.runOneCycle(StateChangeExecutor.java:103) ~[starrocks-fe.jar:?]
at com.starrocks.common.util.Daemon.run(Daemon.java:115) ~[starrocks-fe.jar:?]
Caused by: java.lang.IllegalStateException: Expected BEGIN_OBJECT but was STRING at line 1 column 91 path $.p.m2.
at com.google.gson.stream.JsonReader.beginObject(JsonReader.java:384) ~[spark-dpp-1.0.0.jar:?]
at com.google.gson.internal.bind.ReflectiveTypeAdapterFactory$Adapter.read(ReflectiveTypeAdapterFactory.java:215) ~[spark-dpp-1.0.0.jar:?]

刚才查询其他两个节点 fe 均存在3.0.5 报错信息

截图上的错误是已知问题, 升级到3.0.3+后解决.

后面3.0.5的报错看上去是跟权限相关?

目前是 升级到了 3.0.5 启动报错
权限应该是没问题

中间有使用过main分支部署过吗

没有 出现问题 是在今天早上 和群里相关社区老师沟通后 升级到 3.0.5 从官网下载的安装包 进行 替换 lib bin

老版本 3.0.0 也是官网下载的吗,另外确认下替换 lib bin 之前有没有先将 lib/* bin/* 全删除掉呢

先回滚到3.0.3吧,你看看能回滚吗

是滴 都是从 官网下载

没有删除 备份了 lib 和 bin 严格按照 升级步骤操作的 只是本次 从3.0.0 升级到3.0.5 只升级了 fe 没有升级be 社区老师说升级后没有问题 恢复了 fe再升级be

你升级到3.0.5之前的版本是什么?

3.0.0-48f4d81 这是 升级前的版本

我先尝试 回滚到3.0.4 试试

回滚到3.0.2吧,3.0.4不行

okk 可以发一个 3.0.2 wget 链接吗

https://cdn-release.starrocks.com/StarRocks-3.0.2.tar.gz?Expires=1692340453&OSSAccessKeyId=LTAI5tLYAjAmZTbSaqwYLBcD&Signature=67HMAtMCEyP1RK3zjTm7K6SwOhY%3D

回滚到3.0.2之后,检查所有的fe/meta/image下是否生成了新的image文件,如果都生成了新的image文件(没有的可以从其他节点copy image文件),可以升级到3.0.5

hu回滚到 3.0.2 恢复正常

运行下alter system create image; 手动执行以下生成快照,这期间不要做grant、revoke类的权限操作。然后可以升级3.0.5

image 已完成执行 3.0.2 如果可以正常使用 是不是可以先不操作了 我后续稳定了 直接升级到 3.1

不行,后续如果你还有授权log,还会有新的不识别模式的log。升级3.1还会有问题,也还是需要这么操作。