3.3.0集群查询maxcompute catalog数据耗时不符合预期

Zhang_Penghui · 2024年07月10日 08:04

【详述】问题详细描述
查询maxcompute catalog表时，首次查询耗时8-9s，接下来查询稳定在3s左右
【背景】做过哪些操作？
手动收集maxcompute catalog表的CBO信息时，耗时44min左右
img_v3_02cl_cf25c96f-d9ae-4f76-8a7b-af5d5829271g
【是否存算分离】是
【StarRocks版本】3.3.0
catalog创建SQL：
CREATE EXTERNAL CATALOG odps
PROPERTIES (“odps.access.id” = “LTPR",
“odps.access.key” = "PfeD”,
“odps.project” = “amway_ods”,
“odps.tunnel.quota” = “PROD”,
“odps.endpoint” = “http://service.cn-shenzhen.maxcompute.aliyun.com/api”,
“type” = “odps”
);

慢查询：
- Profile信息
  maxcompute_profile.txt (31.4 KB)
  8s_profile.txt (32.0 KB)

JasonZhang · 2024年07月10日 08:17

hi~ 我观察到你创建Catalog 时使用的 Endpoint 时公网 Endpoint。需要注意的是，尽管 MaxCompute 还没有禁用在公网环境使用“开放存储”（StarRocks 使用“开放存储”对MaxCompute进行访问），但实际上这种方式涉及复杂的网络传输，在大规模数据的场景下，带来较高的延迟。

如果您的环境属于阿里云经典网络/阿里云VPC网络，请更换 Endpoint 参数为对应的 Endpoint
这将带来数倍的数据传输速度，和更低的使用成本。

Zhang_Penghui · 2024年07月10日 08:36

好的我试下

Zhang_Penghui · 2024年07月10日 08:51

大佬，您好，我刚确认了下环境，StarRocks集群在私有云，不在阿里云经典网络，VPC应该后期可能会加到里面。还有别的优化办法嘛

Zhang_Penghui · 2024年07月10日 08:58

而且本地测试下来， limit 200与1w，5w耗时基本没啥大差别。

卿本闲人 · 2024年07月11日 01:00

您好，我想问一下您使用的是共有云还是私有云

Zhang_Penghui · 2024年07月11日 01:42

StarRocks在私有云

卿本闲人 · 2024年07月11日 02:13

不好意思没说清，我想问的是maxcompute是公有云还是私有云

Zhang_Penghui · 2024年07月11日 02:14

只有SR是私有云，MC在阿里云，大佬

Zhang_Penghui · 2024年07月11日 05:29

阿里公有云

JasonZhang · 2024年07月12日 02:56

在数据拉取速度这方面，没有别的优化方法。只能等你说的后期接入阿里云VPC

至于你说的limit 200，1w，5w耗时没区别，可以查看下StarRocks的执行计划（profile文件更优）。

对于Scan表操作，通常SR使用pipeline执行，如果逻辑不需要全表扫描（比如增加了order by算子），limit操作是会降低扫表数量，降低延时的。

也有可能，您说的耗时已经到了比较低的数值。由于MC在访问表之前需要通过网络去进行切表操作，因此对于每张表的查询，都会增加一个1s以内的延迟。这个时间会体现在StarRocks的Plan总耗时中

Zhang_Penghui · 2024年07月22日 09:06

老师，客户反馈在使用maxcompute catalog的过程中，开发环境的SR集群没打通tunnel的网络，可以正常查maxcompute的数据，但是生产环境的SR集群就不行，要打通tunnel的网络才可以查这个正常嘛？

Zhang_Penghui · 2024年07月22日 09:07

这个问题后期会优化吗？老师