开启最新版本的向量索引后写入报错 Failed to load data into tablet xxx, because of too many versions

monchickey · 2025年03月7日 07:00

【详述】创建了一个包含 HNSW 向量索引的表，使用 HTTP 客户端以 Stream Load 的方式持续导入数据，batch 约5万条，间隔10秒，写入并发数2，集群bucket数量为20个。刚开始写入性能还不错，但写入一定规模后（共计约3900万条）出现异常，无法继续写入，客户端错误信息如下：

Failed to load data into tablet 21635, because of too many versions, current/limit 1002/1000. You can reduce the loading job concurrency, or increase loading data batch size. If you are loading data with Routing Load, you can increase FE configs routine_load_task_consume_second and max_routine_load_batch_size

此时如果停止客户端写入，BE 的 CPU 利用率会长时间保持在 200% 左右，看起来应该是合并的速度跟不上的原因，但是 CPU 利用率也上不去，所占用的核数和 Tablet 数量好像是一致的。
如果删除向量索引并且清空表后重新写入则没有任何问题，写入性能一直表现良好。
【背景】创建了向量索引表，主要结构如下：

CREATE TABLE test
(
  `event_time` INT NOT NULL,
  `event_id` CHAR(36) NOT NULL,
  `date` DATE NOT NULL,
  `location_id` BIGINT NOT NULL,
  `feature` ARRAY<FLOAT> NOT NULL,
  INDEX index_vector (`feature`) USING VECTOR("dim"="128", "efconstruction"="128", "index_type"="hnsw", "is_vector_normed"="true","M"="16", "metric_type"="cosine_similarity")
)
ENGINE = OLAP
DUPLICATE KEY(event_time, event_id)
PARTITION BY date_trunc('day', date)
DISTRIBUTED BY HASH(location_id)
PROPERTIES (
  "compression"="LZ4",
  "replication_num"="1"
);

【业务影响】
【是否存算分离】否
【StarRocks版本】基于 main 分支编译，提交为 cc9259b，时间在 2025.03.03
【集群规模】当前集群规模是 5 个节点，1 个 FE，5 个 BE，其中一个 FE 和 BE 混合部署，CPU 都是 32 核心，第一个 FE + BE 内存 128GB，其余的 BE 内存 64GB
【机器信息】32C/64G/万兆
【联系方式】
【附件】