SR 3.3.4 主键模型表查询时报Build Exec OlapScanNode fail, scan info is invalid

为了更快的定位您的问题,请提供以下信息,谢谢
【详述】问题详细描述
主键模型表数据量大批写入时概率性表异常,目前消费kafka数据。共20张表其中有一张表出现问题(概率性异常),副本也异常了
【背景】
压测Starrocks的时候高并发写入时候集群的稳定性, 该表只做了进行Stream load数据写入操作
【业务影响】
表不能被使用
【是否存算分离】
【StarRocks版本】例如:3.3.4
【集群规模】例如:1fe+5be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:16C/32G
【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息,请补充下您的联系方式,例如:社区群4-小李或者邮箱,谢谢

问题表现:
select count(1) from tableName;

stream load时候速度特别慢并且报错信息为:
Message":“Publish timeout. The data will be visible after a while, wait for publishing partition 591706072 version 37. self version: 53. table 331483580”

表结构: 单副本

临时解决方法 重启fe

这几天测试情况发现,表在进行truncate table后出现这种异常的概率会更高

根据这个排查下 [问题排查]查询报错version already been compacted ,思路就是这个分区下面的部分tablet visible version没有被正常推进,具体看下是不是有tablet publish慢了或者失败了

这个表只做了分桶还没做分区,另外tablet的中多了些DECOMMISSION的teblet内容(上面图片中体现了),经过最近测试发现,如表在进行truncate 后再往表stream load数据这个异常的概率会更高。 最近一批20张表每张写200W数据,一批中基本上能发现一两张这种情况的表,另外在稳定性测试过程中所有tablet副本数为1,出现这种情况会阻塞stream load写入,一直失败,失败时间为600s左右(应该是触发了某个配置)。并且这种情况会一直持续下去,需人工介入才行不然这个表一直处于不可用状态!

这几天验证下来 表如果不做truncate基本上没发现这个问题,如果做了truncate出现的概率很高