2.5.2升级到2.5.7之后,磁盘io很高且有很多慢查询

【详述】从2.5.2升级到2.5.7之后,监控上看磁盘io升高,有很多慢查询
1.查看be日志,每个be.WARNING日志里一直都有wait_for_version slow(15346ms)和fail to make_snapshot.
2.查看path: //cluster_balance/history_tablets,有很多tablet处于VERSION_INCOMPLETE状态,隔几分钟就会执行一次repair任务
3.查看fe.log,有多次[Database.logSlowLockEventIfNeeded():142] slow db lock. 对比升级之前fe.log日志,没有这种情况
【背景】2.5.2升级到2.5.7
【业务影响】很多慢查询
【StarRocks版本】2.5.7
【集群规模】3fe+3be(fe与be混部)
【机器信息】12C/48G/万兆
【联系方式】社区群3-Mr。xiao
【附件】
升级前后磁盘io截图


be.WARNING日志截图

path: //cluster_balance/history_tablets截图

fe.log日志截图:


检查集群中所有副本的状态

sudo iotop 看下,是什么线程占用了大量IO

看了,基本上主要是starrocks_be [update_apply]和starrocks_be [manual_compact]很高

这些tablet的值都很高

be.conf 改下 transaction_publish_version_worker_count=8 试试

你是机械磁盘吗

我们环境中也出现很多slow db lock的这种报错,transaction_publish_version_worker_count这个参数已经是8了

看下FE的gc日志,有full gc问题吗?

没有,fe的内存都还没满

有解决吗,出现一样的问题