3.3升级到3.4后fe master 的starrocks_fe_meta_log_count一直增加

【详述】
3.3.9升级到3.4.0后fe master 的starrocks_fe_meta_log_count一直增加不减少了,导致fe服务不可用。从监控上看升级后master 的starrocks_fe_meta_log_count一直在增加,之前到5w就会自动减少。

重启fe后,fe master 的meta_log只有一次Checkpoint记录,之后starrocks_fe_meta_log_count一直在增加。从节点会做Checkpoint,达到5w后会减少。

master:


从节点:

【背景】做过哪些操作?
3.3.9升级到3.4.0

【业务影响】
fe服务不可用

【是否存算分离】

【StarRocks版本】3.4.0
【集群规模】例如:3fe + 3be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:48C/64G/万兆
【表模型】例如: 明细表
【导入或者导出方式】例如:Flink
【联系方式】18638489474@163.com
【附件】
fe_log.zip (76.7 MB)

手动把master重启后,其中一个从节点切换成master节点,老的master变为从节点,然后还是只有新的master节点的starrocks_fe_meta_log_count一直增加。

日志中的时间与截图中的时间不一致。麻烦提供截图对应时间段的日志

日志中的时间是utc时间,截图中的时间是北京时间。日志中的最后时间是2025-03-10 05:19:14,也就是北京时间2025-03-10 13:19:14。日志是fe master的日志,发现服务不可用后在2025-03-10 09:50:08(2025-03-10 01:50:08+00:00)重启了fe节点,然后发现master只在启动后做了一次Checkpoint。

@lukou3看下meta/image/v2/下的image文件在更新吗,看你的描述可能是监控有问题。

master:
image
从节点:
image
image

今天上午在另外一个环境测试,2个fe,也是master不合并。单机版fe的只有一个fe没发现这个现象。
image
image
image
image

@lukou3 你这边能自己打包吗?可以把上面的PR合进去

自己编译starrock吗,暂时不会,c语言的环境不是很懂,我可以等下个版本,现在只是在测试环境使用3.4版本