3.3.0集群查询maxcompute catalog数据耗时不符合预期

【详述】问题详细描述
查询maxcompute catalog表时,首次查询耗时8-9s,接下来查询稳定在3s左右
【背景】做过哪些操作?
手动收集maxcompute catalog表的CBO信息时,耗时44min左右
img_v3_02cl_cf25c96f-d9ae-4f76-8a7b-af5d5829271g
【是否存算分离】是
【StarRocks版本】3.3.0
catalog创建SQL:
CREATE EXTERNAL CATALOG odps
PROPERTIES (“odps.access.id” = “LTPR",
“odps.access.key” = "Pf
eD”,
“odps.project” = “amway_ods”,
“odps.tunnel.quota” = “PROD”,
“odps.endpoint” = “http://service.cn-shenzhen.maxcompute.aliyun.com/api”,
“type” = “odps”
);

hi~ 我观察到你创建Catalog 时使用的 Endpoint 时公网 Endpoint。需要注意的是,尽管 MaxCompute 还没有禁用在公网环境使用“开放存储”(StarRocks 使用“开放存储”对MaxCompute进行访问),但实际上这种方式涉及复杂的网络传输,在大规模数据的场景下,带来较高的延迟。

如果您的环境属于 阿里云经典网络/阿里云VPC网络,请更换 Endpoint 参数为对应的 Endpoint
这将带来数倍的数据传输速度,和更低的使用成本。

好的 我试下

大佬,您好,我刚确认了下环境,StarRocks集群在私有云,不在阿里云经典网络,VPC应该后期可能会加到里面。还有别的优化办法嘛

而且本地测试下来, limit 200与1w,5w耗时基本没啥大差别。

您好,我想问一下您使用的是共有云还是私有云

StarRocks在私有云

不好意思没说清,我想问的是maxcompute是公有云还是私有云

只有SR是私有云,MC在阿里云,大佬

阿里公有云

在数据拉取速度这方面,没有别的优化方法。只能等你说的后期接入阿里云VPC

至于你说的limit 200,1w,5w耗时没区别,可以查看下StarRocks的执行计划(profile文件更优)。

对于Scan表操作,通常SR使用pipeline执行,如果逻辑不需要全表扫描(比如增加了order by算子),limit操作是会降低扫表数量,降低延时的。

也有可能,您说的耗时已经到了比较低的数值。由于MC在访问表之前需要通过网络去进行切表操作,因此对于每张表的查询,都会增加一个1s以内的延迟。这个时间会体现在StarRocks的Plan总耗时中