SR从2.2.2升级到2.5.0后BE的IO 100%

sr从2.2.2升级到2.5.0,先升级了一台be观察情况,升级后,该be的io一直是100%,其他未升级io正常,请问这是什么原因?如何排查?
以下是iotop命令的输出。


下图合并的分数是不是不正常?

image

是不是要把其他be节点都升级了io就降下来了?

你BE上挂了几块盘?

9块。

be.conf有改过compaction相关的配置吗。2.5 compaction机制变了,以前的配置方法,可能不是最好的了

还真改过,为了加快合并速度,做了这些配置:
cumulative_compaction_num_threads_per_disk = 4
base_compaction_num_threads_per_disk = 2
cumulative_compaction_check_interval_seconds = 2

前两个配置先都改成1,试试

改过之后,io还是会快速上到100%
image

iostat -x 1看下

如果是线上环境的话,可以修改 enable_event_based_compaction_framework=false,然后把参数改回以前的,来规避。

是所有的盘都被打满了吗?

对的,所有盘都打满了。

的确,加了这个参数就正常了,
image
我看这个参数可以大幅度降低compaction的开销,对我们而言还是比较有用的。但是目前看来,这个好像有点问题,所以这个地方你们要在排查一下吗?

但是调了这个参数,节点的io不是100%了,但是某些时刻还是比其他未升级be节点的io高,如下图中的绿色线条所示。
image

是的,有些策略当前有些问题,我们需要先查下。

你们单机有多少Tablet?

37万多
image

2.5.8这个参数还要保持关闭吗?现在从2.4升级到2.5遇到了情况和这个一样
image

先保持关闭,并且确认下是否修改过compaction相关的参数 有的话需要先改回默认的