5台节点,下掉每个节点的一个盘后,一些表无法查询了

版本: 2.2.5
5台节点,3个FE,5个BE混布。 因为一个盘有问题,5个节点都暂时下掉这个盘。结果造成表无法查询,报错

ERROR 1064 (HY000): Build Exec OlapScanNode fail, scan info is invalid,Failed to get scan range, no queryable replica found in tablet: 68732

查看这个tablet

SHOW PROC ‘/dbs/10353/65814/partitions/65778/65815/68732’\G;
*************************** 1. row ***************************
ReplicaId: 68735
BackendId: 10005
Version: 8
VersionHash: 0
LstSuccessVersion: 8
LstSuccessVersionHash: 0
LstFailedVersion: -1
LstFailedVersionHash: 0
LstFailedTime: NULL
SchemaHash: 1146580667
DataSize: 88220
RowCount: 3135
State: NORMAL
IsBad: true
IsSetBadForce: false
VersionCount: 1
PathHash: 2750110518869391651
MetaUrl: http://10.65.23.238:8040/api/meta/header/68732/1146580667
CompactionStatus: http://10.65.23.238:8040/api/compaction/show?tablet_id=68732&schema_hash=1146580667

有些表可以查询,但是无法插入数据,会报错:
Tablet lost replicas. Check if any backend is down or not. tablet_id: 215326, backends: 10.65.23.xx

丢失副本是会影响导入的,比如你表是两个副本,丢失一个副本以后就只能查不能写入。你看看SHOW PROC ‘/cluster_balance/pending_tablets’;这样执行看看有没有副本在做均衡

好的,多谢。

那查询报错是什么原因? 我的表都是3副本,按我的理解,应该是在5个节点,每个节点的3个硬盘上均衡分布,我下掉一个盘,应该最多就去掉1个副本,不会造成查询问题的。

请问你这个是5个be每个be下掉一块盘还是说5个be中有一个be挂的一块盘有问题给下掉了?

每个be下掉一个盘