【详述】主键模型写入观察监控有大量Scheduling Tablets,执行SHOW PROC '/cluster_balance/pending_tablets’查看正在均衡的副本有几千条记录,Type:REPAIR,Status:VERSION_INCOMPLETE,State:PENDING,ErrMsg:path busy, wait for next round
求教大量Scheduling Tablets是否会影响主键模型更新的稳定性,是否需要优化,如何优化?
【背景】主键模型,按天分区,更新时间间隔30s,每个批次会更新300个分区,表数据更新没有延迟
【业务影响】
【StarRocks版本】3.1.1
【集群规模】3fe+6be
【机器信息】16C/64G/万兆
发一个be.INFO日志看下
大佬需要什么日志,我可以根据关键字搜一下提供信息,日志文件在内网无法拿出来,在 Scheduling Tablets高的时候,be.info有大量以下告警,
W1106 14:28:59.746557 31345 engine_clone_task.cpp:397] Fail to make snapshot from ip: Not found: get_rowsets_for_snapshot: no version to clone tablet:2501736 #version:174 [10096.1 10253@173 10253] #pending:0 request_version:10254, tablet:2501736
W1106 14:28:59.745682 5085 agent_server.cpp:514] fail to make_snapshot. tablet_id:2502504 msg:Not found: get_rowsets_for_snapshot: no version to clone tablet:2502504 #version:174 [10101 10258@173 10258] #pending:0 request_version:10259,
这个是因为部分副本导入或 publish 失败了,触发自动修复,pk 表在大压力导入下容易出现这个问题,对查询和导入没有影响,正常不需要优化。如果要缓解这个问题,可以控制一下导入频率和同时导入的分区数量。