[问题排查]下线(Decommission)BE节点卡住

一、解决方案

  1. 自动操作
  • 不重要的集群或者可以接受重启的集群,可以把分片卡住的机器(一般卡住的分片数量在1~100左右)先取消下线,等它分片开始上涨的时候在进行下线操作,一般都能解决问题。
  1. 手工操作

遇到分片数剩下几个下不去的情况,(取消下线重启后无用的情况下)可以用以下方法进行排查:

如果需要确认节点的分片数量,可以通过 show backends; 命令来查看节点上的tablet数量个数

  1. 第一步 去到为Master的FE节点上日志里搜索 decommission。

  1. show tablet ****; 以图中为例 语句为: show tablet 20159;
  2. 执行detailcmd里面的命令:SHOW PROC ‘/dbs/12001/13393/partitions/13369/13394/14276’

  1. 执行结果为:

4.1 show proc ‘/cluster_balance’; 在master节点执行一下,看看有无pending的

number为0的情况下,可以先把那个be节点stop一下,等一会儿再启动,一个一个来即可