升级StarRocks-3.1.0-rc01 FE出错

【详述】升级StarRocks-3.1.0-rc01,BE测试正常,升级正常。FE测试时出错。
按照官网文档,https://docs.starrocks.io/zh-cn/latest/deployment/upgrade
选择一个follower:

  1. 停止服务
  2. 拷贝leader节点的meta
  3. 修改conf中的端口、
  4. 添加配置项 cluster_id = 123456metadata_failure_recovery = true
  5. 修改meta/image/VERSION: cluster_id 设置为 123456
    启动后jps查看进程StarRocksFE存在,但马上就消失。查看fe.warn.log.报错。

2023-07-13 13:56:00,379 WARN (UNKNOWN 192.168.134.51_9010_1688536065850(-1)|1) [StateChangeExecutor.notifyNewFETypeTransfer():62] notify new FE type transfer: UNKNOWN
2023-07-13 13:56:00,423 WARN (RepNode 192.168.134.51_9010_1688536065850(-1)|79) [StateChangeExecutor.notifyNewFETypeTransfer():62] notify new FE type transfer: LEADER
2023-07-13 13:56:01,498 WARN (UNKNOWN 192.168.134.51_9010_1688536065850(-1)|1) [ColocateTableIndex.cleanupInvalidDbOrTable():1024] remove 0 invalid tableid: []
2023-07-13 13:56:02,019 WARN (UNKNOWN 192.168.134.51_9010_1688536065850(-1)|1) [GlobalStateMgr.loadImage():1600] load image eof.
java.io.EOFException: null
at java.io.DataInputStream.readFully(DataInputStream.java:197) ~[?:1.8.0_321]
at com.starrocks.common.io.Text.readString(Text.java:393) ~[starrocks-fe.jar:?]
。。。。。。
2023-07-13 13:56:02,027 WARN (UNKNOWN 192.168.134.51_9010_1688536065850(-1)|1) [GlobalStateMgr.loadImage():1606] follower has to wait for leader to upgrade the privileges, set usingNewPrivilege = false for now
2023-07-13 13:56:06,253 WARN (stateChangeExecutor|89) [GlobalStateMgr.replayJournalInner():2257] catch exception when replaying 4918601,
com.starrocks.journal.JournalInconsistentException: failed to load journal type 201
at com.starrocks.persist.EditLog.loadJournal(EditLog.java:1085) ~[starrocks-fe.jar:?]
。。。。。。
Caused by: java.lang.NullPointerException
at com.starrocks.load.routineload.RoutineLoadMgr.replayChangeRoutineLoadJob(RoutineLoadMgr.java:606) ~[starrocks-fe.jar:?]
at com.starrocks.persist.EditLog.loadJournal(EditLog.java:701) ~[starrocks-fe.jar:?]
… 7 more
2023-07-13 13:56:06,253 WARN (stateChangeExecutor|89) [GlobalStateMgr.replayJournal():2200] got interrupt exception or inconsistent exception when replay journal 4918601, will exit,
com.starrocks.journal.JournalInconsistentException: failed to load journal type 201

【StarRocks版本】例如:3.0.3 -> StarRocks-3.1.0-rc01
【集群规模】3 fe + 3be。be升级成功
【联系方式】jie-zhang(ijavatar@126.com)
【附件】

文档上面写的是部署一个测试单节点fe,然后把生产的meta拷贝下来,在测试环境验证下兼容性。不是直接操作原有集群哈。

我现在没有环境可以单独部署。
但我3.0.2 -> 3.0.3 是这样操作升级的:

  1. 停止follower服务
  2. 拷贝fe.conf文件、拷贝meta文件至3.0.3/fe/下
  3. 启动fe。
    一切正常,完成fe升级。
    我看官网文档,实质上的步骤也基本和这个一样。

但我这次同样的操作却在报错。错误内容和上面基本相同。
于是我才做的上述测试。

还是请帮忙看看具体问题。

升级fe只需要替换lib,bin核spark-dpp,然后重启即可

昨日已测试替换的方案,错误是同样的。其实和我们替换meta无本质区别。
今早其他同事用另一台机器,重新测试了替换lib、bin、spark-dpp的方法,还是报同样的错误。
请重点关注一下这些错误。研发的大佬们是否能有一些头绪?

  1. load image eof
  2. journal type 201

附上fe错误日志。
fe_3.1.0rc.error (3.9 KB)

starrocks-fe.jar (17.7 MB)
你好,这个是我们已知的一个问题,后面在rc02发版本的时候会修复,当前先把这个包替换掉 fe/lib/starrocks-fe.jar,启动吧

明白了。多谢您~