【详述】K8S对应GKE,S3对应GCS,集群启动后看所有pod都是正常,创建表的时候遇到ERROR 1064 (HY000): Unexpected exception: fail to create tablet: 10091: [create tablet failed],我怀疑是GCS的配置是不是有问题,但是fe,be,cn的容器都没有任何错误的日志打印,这个问题有什么办法调试吗?或者查看错误吗?
【背景】新建存算分离集群
【业务影响】
【StarRocks版本】3.0.2
【集群规模】3fe(1 follower+2observer)+ 3be + 1cn(autoscaling1-5)
【机器信息】3台:16C/64G/万兆
【联系方式】
【附件】
先确认leader FE, 然后用kubectl exec -it进入到容器里拿FE的日志, 位置在/opt/starrocks/fe/log/fe.log
在FE LEADER没有什么日志,但是be有日志,我一直得到S3的验证失败错误,我的KEY应该是没有问题,在S3 Client验证过。
/build/starrocks/be/src/storage/lake/tablet_manager.cpp:280 create_schema_file(req.tablet_id, tablet_metadata_pb->schema()), signature: 13124
I0628 04:12:50.783982 1339 notify_close_file_stream.cc:34] close notifier returns error, ALREADY_EXISTS: src: .tmp/27287b23b7226d432044d2f6b16f0f42.cache_tmp.oKLK3R dst: SCHEMA_0000000000003343: File exists
W0628 04:12:50.785501 1338 agent_task.cpp:205] create table failed. status: Internal error: starlet err Put object s3://starrocks-db-data/bfdd1d94-ba8b-45b0-b2b3-b3e175610e75/13122/SCHEMA_0000000000003343 error: Unable to parse ExceptionName: InvalidSecurity Message: The provided security credentials are not valid.
I0628 05:48:32.831359 1274 notify_close_file_stream.cc:34] close notifier returns error, ALREADY_EXISTS: src: .tmp/54c6824c0e9e4112bdb94bb82e55cf48.cache_tmp.xYFpUm dst: SCHEMA_0000000000002B89: File exists
W0628 05:48:32.842139 1273 agent_task.cpp:205] create table failed. status: Internal error: starlet err Put object s3://starrocks-db-data/e04f9a71-fc3b-4f08-bd1f-c92a5309e373/11144/SCHEMA_0000000000002B89 error: Unable to parse ExceptionName: InvalidSecurity Message: The provided security credentials are not valid.
GCS storage用aws sdk访问可能有个兼容性的问题. 参考https://github.com/StarRocks/starrocks/pull/24129 这个PR. 如果有可能的话, 可以用main branch的代码自己编译个镜像, 并打开aws_sdk_enable_compliant_rfc3986_encoding = true
验证是否是正常.
也可以在3.0.2版本的be.conf里加上aws_sdk_logging_trace_enabled = true
开启aws sdk日志, 在日志里查看一下, 查找InvalidSecurity Message是否有进一步的原因解释.
你好,我部署3.1版本使用oss存储也遇到这个问题,这个是怎么解决
阿里云oss应该不会, 可以把你的配置脱敏发一下看看.
服务器之间的端口,服务器连接oss的连通性我都验证了没有问题
这个oss的配置我开始配置了一个内网的地址是不通的,后面改成公网的,是不是就不会更新了
3.1.0开始启用storage volume, FE会根据初始配置文件里的oss配置自动生成一个builtin storage volume, 你可以尝试用alter storage volume命令修改对应的参数.
好的我看看,刚才这个问题我重新部署了一下就好了,就是第一次配置文件里面的网络不通,后面改就没用了