2.3.6 元数据异常增长

【详述】问题详细描述
【背景】做过哪些操作?
【业务影响】
【StarRocks版本】例如:1.18.2
【集群规模】例如:1fe+4be

【附件】

image
看 meta/bdb 目录发现一直在新增 .jdb 文件

fe.warn.log 显示了如下的异常:
2023-02-16 00:00:34,021 ERROR (leaderCheckpointer|75) [Checkpoint.runAfterCatalogReady():106] Exception when generate new image file
java.lang.IllegalStateException: InfoSchemaDb id shouldn’t larger than 10000, please restart your FE server
at com.google.common.base.Preconditions.checkState(Preconditions.java:510) ~[spark-dpp-1.0.0.jar:?]
at com.starrocks.server.LocalMetastore.loadCluster(LocalMetastore.java:3598) ~[starrocks-fe.jar:?]
at com.starrocks.server.GlobalStateMgr.loadImage(GlobalStateMgr.java:1131) ~[starrocks-fe.jar:?]
at com.starrocks.master.Checkpoint.runAfterCatalogReady(Checkpoint.java:87) [starrocks-fe.jar:?]
at com.starrocks.common.util.MasterDaemon.runOneCycle(MasterDaemon.java:61) [starrocks-fe.jar:?]
at com.starrocks.common.util.Daemon.run(Daemon.java:115) [starrocks-fe.jar:?]

@gengjun 大佬可以帮忙看下吗
可以按照提示的直接重启解决问题吗?

按照提示重启FE后30多分钟后才恢复正常了

[2023-02-16 12:44:49] notify new FE type transfer: UNKNOWN
[2023-02-16 12:44:51] notify new FE type transfer: MASTER
[2023-02-16 13:18:27] master finished to replay journal, can write now.

请问 InfoSchemaDb id shouldn’t larger than 10000 这个异常跟什么有关呢,集群已经运行一年多了,今天突然出现这个问题。
请问后续可以通过什么方式避免这种问题呢,毕竟重启FE时间过长了,一定程度上会影响业务。

看下image/下面的文件生成时间,另外fe.warn中搜下leaderCheckpointer,看下是不是checkpoint没有正常进行

另外开始出问题时间点的fe.log日志上传下

你好这个问题已经找 @gengjun 看过了, 已经有pr 修复了,还没合到 2.3 版本,后续会合进去解决这个问题,暂时只能重启一下。