【详述】部署的很多集群都是单节点多块盘,如果出现tablet clone之后有概率会出现如下两类报错
1.tablet迁移时有更新 v1存活 v2bad 导致写入最新版本丢失不可恢复
2.tablet迁移时 主键表delvec丢失 状态异常可以通过脚本修复 ADMIN EXECUTE ON 10004 ‘StorageEngine.reset_delvec(68368720,0,2)’
这两类问题都会导致表损坏不能自动恢复 需要手动介入操作对集群的数据安全有非常大的影响。目前只能通过关闭balance的配置进行规避。
补充:如果3节点2副本也会有类似的问题 3副本的集群没有出现过类似的问题
详细日志可以参考这个帖子:
【业务影响】数据丢失
【是否存算分离】
【StarRocks版本】3.2.16、3.3.17
【集群规模】例如:3fe(1 follower+2observer)+5be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:48C/64G/万兆
【联系方式】社区群22hpp
【附件】