2.3.6 元数据异常增长

yangrong · 2023年02月16日 03:42

【详述】问题详细描述
【背景】做过哪些操作？
【业务影响】
【StarRocks版本】例如：1.18.2
【集群规模】例如：1fe+4be

【附件】

fe.log/beINFO/相应截图
fe 所用磁盘在2月13日后突增

image1455×346 24.7 KB

看 meta/bdb 目录发现一直在新增 .jdb 文件

fe.warn.log 显示了如下的异常:
2023-02-16 00:00:34,021 ERROR (leaderCheckpointer|75) [Checkpoint.runAfterCatalogReady():106] Exception when generate new image file
java.lang.IllegalStateException: InfoSchemaDb id shouldn’t larger than 10000, please restart your FE server
at com.google.common.base.Preconditions.checkState(Preconditions.java:510) ~[spark-dpp-1.0.0.jar:?]
at com.starrocks.server.LocalMetastore.loadCluster(LocalMetastore.java:3598) ~[starrocks-fe.jar:?]
at com.starrocks.server.GlobalStateMgr.loadImage(GlobalStateMgr.java:1131) ~[starrocks-fe.jar:?]
at com.starrocks.master.Checkpoint.runAfterCatalogReady(Checkpoint.java:87) [starrocks-fe.jar:?]
at com.starrocks.common.util.MasterDaemon.runOneCycle(MasterDaemon.java:61) [starrocks-fe.jar:?]
at com.starrocks.common.util.Daemon.run(Daemon.java:115) [starrocks-fe.jar:?]

yangrong · 2023年02月16日 03:41

@gengjun 大佬可以帮忙看下吗
可以按照提示的直接重启解决问题吗?

yangrong · 2023年02月16日 05:35

按照提示重启FE后30多分钟后才恢复正常了

[2023-02-16 12:44:49] notify new FE type transfer: UNKNOWN
[2023-02-16 12:44:51] notify new FE type transfer: MASTER
[2023-02-16 13:18:27] master finished to replay journal, can write now.

yangrong · 2023年02月16日 05:45

请问 InfoSchemaDb id shouldn’t larger than 10000 这个异常跟什么有关呢，集群已经运行一年多了，今天突然出现这个问题。
请问后续可以通过什么方式避免这种问题呢，毕竟重启FE时间过长了，一定程度上会影响业务。

jingdan · 2023年02月16日 13:09

看下image/下面的文件生成时间，另外fe.warn中搜下leaderCheckpointer，看下是不是checkpoint没有正常进行

jingdan · 2023年02月16日 13:10

另外开始出问题时间点的fe.log日志上传下

yangrong · 2023年02月17日 01:25

你好这个问题已经找 @gengjun 看过了, 已经有pr 修复了，还没合到 2.3 版本，后续会合进去解决这个问题，暂时只能重启一下。