starrocks升级后

【详述】问题详细描述
flink写入starrocks报错,“Message”:“Tablet is in error state. This is a primary key table. tablet_id: 724723”, 在starrocks社区查询到要升级到2.3.3
【背景】做过哪些操作?
升级后执行:ADMIN SET REPLICA STATUS PROPERTIES(“tablet_id” = “724723”, “backend_id” = “606345”, “status” = “bad”); 报错:SQL错误[1064][42000]:Unknow error

执行如下语句报错:sql错误[1064][42000]:get_applied_rowsets(version 44234)failed tablet:724726 # version:1 [44236.1 44236.1@0 44236.1] # pending:0
select * from dws_marketplace_amazon_listing_rank limit 10;

【业务影响】
【StarRocks版本】2.3.0 升级到2.4.0
【集群规模】例如:3fe(1 follower+2observer)+3be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:16核/13G/万兆

产生tablet failed只是因为升级吗?2.3.3升级至2.4.0?

不是,是因为报错,所以去升级了,升级完,还是报错 Tablet is in error state. This is a primary key table.tablet_id: 12063576

这个表是1副本吗?

能在日志中找到这个tablet error state的原因吗?搜索下升级重启be后这个tablet最早的一条error state的日志

还有一个,建议直接升级到2.4.1,不要升级2.4.0了,2.4.0有几个导致crash的bug

2副本(1主1副)

好的,感谢提醒,我待会再升级一下

麻烦找一下日志。

be.WARNING.log.20221013-115024:W1128 17:41:39.383810 9260 stream_load_executor.cpp:89] fragment execute failed, query_id=54496709fca9ad9c-9d95c6655ca9aa85, err_msg=Tablet is in error state. This is a primary key table. tablet_id: 724723, id=54496709fca9ad9c-9d95c6655ca9aa85, job_id=-1, txn_id: 12719364, label=5a25507e-15ed-44d2-9824-8159fab236f3, db=dataworker_db

be.WARNING.log.20221013-115024:W1128 17:41:39.383873 9439 stream_load.cpp:133] Fail to handle streaming load, id=54496709fca9ad9c-9d95c6655ca9aa85 errmsg=Tablet is in error state. This is a primary key table. tablet_id: 724723

是什么时候升级到2.4.0的?方便给个be.INFO日志看下吗

be.INFO.log.rar (66.9 MB)

日志好像没上传成功,下载不了,能再上传一次吗?这个问题升级到2.4.1后还有吗?

升级后也一样,日志太大,我切小一点

已经升级到2.4.1了吗

是的,已经升级2.4.1,还是无法从flink savepoint恢复

升级2.4.1后还是报Tablet is in error state的错误吗?

是的,Tablet is in error state

这个日志里没有error state的tablet,方便加个微信吗?能远程看下吗

感谢大佬,我们已经删掉出问题的表,重跑了,重跑没问题,就是担心下次再出现这种情况改怎么处理?