【备份】备份建立repo仓库导致FE节点下线

starrocker · 2023年10月24日 01:16

【详述】通过执行创建repo仓库，备份到华为云OBS或者阿里云OSS。均无法创建repo仓库。
【背景】尝试创建repo备份到华为云OBS，以S3A协议创建。尝试备份到阿里云OSS。均报错。
【业务影响】
【StarRocks版本】2.5.10 容器版本：starrocks/fe-ubuntu:2.5.10
【集群规模】例如：3fe（1 follower+2observer）+5be（fe与be混部）
【机器信息】CPU虚拟核/内存/网卡，例如：48C/64G/万兆
【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息，请补充下您的联系方式，例如：社区群4-小李或者邮箱，谢谢
【附件】
以华为云OBS创建repo命令：
CREATE REPOSITORY uat_repo
WITH BROKER
ON LOCATION “s3a://bucket/backup”
PROPERTIES(
“aws.s3.access_key” = “xxxxxx”,
“aws.s3.secret_key” = “xxxxx”,
“aws.s3.endpoint” = “obs.cn-south-1.myhuaweicloud.com”
);
返回报错：
ERROR 1064 (HY000): Unexpected exception: Failed to create repository: failed to list remote path: s3a://bucket/uat/__starrocks_repository_uat_repo/__repo_info. msg: java.lang.IllegalArgumentException: Can not create a Path from an empty string

以阿里云OSS创建repo仓库，执行命令：
CREATE REPOSITORY uat_repo
WITH BROKER
ON LOCATION “oss://bucket/backup”
PROPERTIES(
“fs.oss.accessKeyId” = “xxxxx”,
“fs.oss.accessKeySecret” = “xxxxx”,
“fs.oss.endpoint” = “oss-cn-shenzhen.aliyuncs.com”
);
返回错误：
ERROR 1064 (HY000): Socket is closed by peer.

导致其中一个FE节点下线异常。FE日志中打印错误：
2023-10-24 08:53:50,476 WARN (thrift-server-pool-106705|211803) [NativeCodeLoader.():60] Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
2023-10-24 08:54:53,545 WARN (UNKNOWN 10.9.2.116_9010_1682558843183(-1)|1) [StateChangeExecutor.notifyNewFETypeTransfer():45] notify new FE type transfer: UNKNOWN
2023-10-24 08:54:53,566 WARN (RepNode 10.9.2.116_9010_1682558843183(-1)|51) [StateChangeExecutor.notifyNewFETypeTransfer():45] notify new FE type transfer: FOLLOWER
2023-10-24 08:54:54,901 WARN (UNKNOWN 10.9.2.116_9010_1682558843183(-1)|1) [ColocateTableIndex.cleanupInvalidDbOrTable():996] remove 0 invalid tableid: []

xfworld · 2023年10月24日 01:34

BROKER 有启动么？有正常建立联系么？和 SR 的集群

starrocker · 2023年10月25日 09:45

正常启动。但是从详细的日志看好像是fe的问题。这个是master节点对应的warn日志。
Untitled-1.txt (4.7 KB)

xfworld · 2023年10月31日 09:36

这个应该是 path 的问题，S3 除了桶之外，你额外建个目录试试

Can not create a Path from an empty string

starrocker · 2023年12月1日 01:19

是hadoop.sh 脚本没有更新对应的版本导致。我们更新了并重启就可以了。

kenwe_sr · 2024年03月26日 08:05

我也遇到了类似的问题，每次执行创建repo命令，会引发FE livenessProbe 检测失败，进而被K8S重启FE。
请问这个 hadoop.sh 是在fe还是be容器内？需要修改更新什么内容呢，谢谢。