3.3.0版本升级到3.3.2版本, 导致数据丢失, tablet被删除

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】问题详细描述
执行查询语句报错

select count(*) from ods_api_wdtqjqm_sale_order_info_f_bak;
ERROR 1064 (HY000): failed to get tablet. tablet_id=14395004, with schema_hash=1610116864, reason=tablet does not exist backend [id=10005] [host=mdw]

【背景】做过哪些操作?
从3.3.0版本升级到3.3.2版本

【业务影响】
数据丢失补数据周期很久, 急需恢复数据
【是否存算分离】否
【StarRocks版本】例如:3.3.2
【集群规模】例如:3fe(3 follower)+3be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:16C/64G/万兆
【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息,请补充下您的联系方式,例如:社区群16-可乐鸡或者邮箱,谢谢
【附件】

日志文件太大 先截图了

  • 外表查询报错
    • be.out和fe.warn.log

链接leader fe查下14395004这个tablet 的三个副本的状态

1赞

我在社区群里找下你吧

leader fe的日志发下,grep 14395004 fe.log* > 14395004.txt

老师,我们也遇到了这种问题,能否帮忙看一下173766.txt (195.0 KB)

图片和文件不是同一个tablet id 情况是一样的。

你这个是单副本?连接的leader fe查看的的吗?

是连接leader查看的,是3个副本

日志里面有个这样的错fe.log:2024-12-09 09:40:26,758 ERROR (ReportHandler|84) [ReportHandler.deleteFromMeta():744] backend [11010] invalid situation. tablet[173766] has few replica[1], replica num setting is [3]
日志文件在上面上传了

在leader fe里面过滤下这个tablet,目前看这个tablet只有一个副本并且有问题

173766.txt (195.0 KB) 老师这个是过滤后的

能看出是什么原因导致的吗?

这是所有的日志了吗?看不到为啥变成1副本了

这个是最近两天的,就是在出问题前,我在到一份全量的看看

173766 (2).txt (628.5 KB) 老师这个是所有的了

11002, 11006这三个be日志搜下这个tablet id日志

173766(3).txt (146.3 KB)
11002 这台机器的日志,就是这是这台机器的tablet有问题

11006 没有找到这个tablet id日志

grep的be.INFO*吗

是的,