存算一体升级到3.1.6后 查询报错 The tablet write operation update metadata take a long time

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】问题详细描述
存算一体集群从2.5.10 逐步升级到3.1.6后查询时常出现
The tablet write operation update metadata take a long time 的报错

看了下查询的表有个别的tablet 比较大,8-9GB

但是升级前的2.5.10版本数据tablet 数据量也是一样的,不清楚是不是3.1版本做了什么优化限制了查询。

【背景】做过哪些操作?
【业务影响】查询受限报错
【是否存算分离】
【StarRocks版本】例如:3.1.6
【集群规模】例如:3fe(1 follower+2observer)+8be
【机器信息】CPU虚拟核/内存/网卡,例如:BE 32C 128G 3.5T NVMe SSD * 2
【联系方式】社区3群-杨荣
【附件】

表有比较频繁的导入吗?

看报错的表导入的不频繁,都是攒批导入的

升级版本后数据导入没有变更

查询偶发这个报错, 还是频率很高?

频率还比较高
这个是查询报错的监控

我发了fe leader 的日志给 trueeyu 了,如果需要可以找下他要下链接
集群升级时间是2024-01-03 20:00 左右,可以看下后面的日志

看了下日志都是在FE follwer 节点上的查询报出了这个错误,可能是元数据同步到follower 节点稍微慢了点导致的问题?
我把FE follower 节点的日志也打包出来看下

我把报错的两个表从 snapshot 备份恢复后,再查询就没有遇到这个问题了,估计是升级后一些tablet 出了问题

@trueeyu 这个PR还是没有解决根本问题,只是不再包 这个错误了"The tablet write operation update metadata take a long time"。如果不再报这个错误,那再发生这样的问题时的表象是什么呢?直接查询失败?

增加sql重试次数吧