【备份】备份建立repo仓库导致FE节点下线

【详述】通过执行创建repo仓库,备份到华为云OBS或者阿里云OSS。均无法创建repo仓库。
【背景】尝试创建repo备份到华为云OBS,以S3A协议创建。尝试备份到阿里云OSS。均报错。
【业务影响】
【StarRocks版本】2.5.10 容器版本:starrocks/fe-ubuntu:2.5.10
【集群规模】例如:3fe(1 follower+2observer)+5be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:48C/64G/万兆
【联系方式】为了在解决问题过程中能及时联系到您获取一些日志信息,请补充下您的联系方式,例如:社区群4-小李或者邮箱,谢谢
【附件】
以华为云OBS创建repo命令:
CREATE REPOSITORY uat_repo
WITH BROKER
ON LOCATION “s3a://bucket/backup”
PROPERTIES(
“aws.s3.access_key” = “xxxxxx”,
“aws.s3.secret_key” = “xxxxx”,
“aws.s3.endpoint” = “obs.cn-south-1.myhuaweicloud.com
);
返回报错:
ERROR 1064 (HY000): Unexpected exception: Failed to create repository: failed to list remote path: s3a://bucket/uat/__starrocks_repository_uat_repo/__repo_info. msg: java.lang.IllegalArgumentException: Can not create a Path from an empty string

以阿里云OSS创建repo仓库,执行命令:
CREATE REPOSITORY uat_repo
WITH BROKER
ON LOCATION “oss://bucket/backup”
PROPERTIES(
“fs.oss.accessKeyId” = “xxxxx”,
“fs.oss.accessKeySecret” = “xxxxx”,
“fs.oss.endpoint” = “oss-cn-shenzhen.aliyuncs.com
);
返回错误:
ERROR 1064 (HY000): Socket is closed by peer.

导致其中一个FE节点下线异常。FE日志中打印错误:
2023-10-24 08:53:50,476 WARN (thrift-server-pool-106705|211803) [NativeCodeLoader.():60] Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
2023-10-24 08:54:53,545 WARN (UNKNOWN 10.9.2.116_9010_1682558843183(-1)|1) [StateChangeExecutor.notifyNewFETypeTransfer():45] notify new FE type transfer: UNKNOWN
2023-10-24 08:54:53,566 WARN (RepNode 10.9.2.116_9010_1682558843183(-1)|51) [StateChangeExecutor.notifyNewFETypeTransfer():45] notify new FE type transfer: FOLLOWER
2023-10-24 08:54:54,901 WARN (UNKNOWN 10.9.2.116_9010_1682558843183(-1)|1) [ColocateTableIndex.cleanupInvalidDbOrTable():996] remove 0 invalid tableid: []

BROKER 有启动么? 有正常建立联系么?和 SR 的集群

正常启动。但是从详细的日志看好像是fe的问题。这个是master节点对应的warn日志。
Untitled-1.txt (4.7 KB)

这个应该是 path 的问题,S3 除了 桶之外,你额外建个目录试试

Can not create a Path from an empty string

是hadoop.sh 脚本没有更新对应的版本导致。我们更新了并重启就可以了。

我也遇到了类似的问题,每次执行创建repo命令,会引发FE livenessProbe 检测失败,进而被K8S重启FE。
请问这个 hadoop.sh 是在fe还是be容器内?需要修改更新什么内容呢,谢谢。