测试环境通过元数据恢复FE和BE报错

【StarRocks版本】例如:1.19.5
【集群规模】例如:3fe(3 follower)+3be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:16C/32G/万兆

【详述】问题详细描述

按照官网文档流程,https://docs.starrocks.com/zh-cn/main/administration/Metadata_recovery

通过元数据恢复的方式恢复fe。

【背景】做过哪些操作?

一、选择最新的fe,然后添加metadata_failure_recovery=true配置启动
二、把添加的配置去掉,再重启
三、此时依次重启了3台be,因为有一台be由于oom挂了
四、重启后,把其他未启动的fe先通过alter system drop掉,现在fe只剩下一个,且为master
五、此时通过mysql客户端登录查看一些表报错

报错如下:

(‘root’@172.16.7.154:)[datahub_db]> select count(*) from risk_user_get_coupon_exec_log;
ERROR 1064 (HY000): [172.16.7.156] fail to prepare tablet reader 1113509.1421027484.5d4679ccc2d2e77b-68c43e06ab9bdf98: Internal error: fail to find rowset of version 0-9

be日志报错入下:

六、按元数据恢复流程,新增一个fe,先通过命令
ALTER SYSTEM ADD FOLLOWER
新增加一个fe
然后新增加的fe通过–helper命令启动。

启动后新的fe日志卡在如下界面:

而现有的fe(master)过段时间也会报错并自行shutdown

日志如下:



  • be节点cpu和内存使用正常

请教:如何恢复

请问下这个节点重新部署有清理meta嘛?如果没有的话暂时可以把这个节点先stop了,然后重启拉起之前存活的一台fe看看能否恢复。如果恢复了,其他两台fe按照新部署流程重新部署

你好,这个是已知的一个问题,麻烦发下172.16.7.156这台be的日志be.info和be.warn

这是当时的warning的日志,be.info日志也已经被清理了

我后来是把这张表删除重建了,就没有再报错了