StarRocks 竞猜周三(答案&得奖名单)#1 湖仓分析常见问题

感谢大家参加第一期的 StarRocks 竞猜周三活动,以下公布湖仓分析相关问题的答案和得奖名单。
这些问题可以视作 StarRocks 湖仓分析的常见问题,欢迎大家多加利用! :sunglasses:

1. 以下哪些是湖仓一体的优势?(多选)ABCD

A. 无需维护烟囱式数仓建设,充分利用湖上数据资源

B. 计算存储分离架构可实现 Workload 资源隔离,提供独立按需弹性

C. 存储成本较低

D. 统一存储确保 single source of truth

StarRocks 在支持一系列湖仓融合的能力之后,结合存算分离架构,具备湖仓一体化的能力。用户可以直接将 StarRocks 作为一个 Lakehouse 使用,兼具数据仓库与数据湖的优势:

  • 无需维护两套独立的数据仓库与数据湖系统

  • 支持灵活的存储格式,采用开放存储格式或者 StarRocks 针对实时分析优化的存储格式

  • 采用计算存储分离架构,实现 Workload 资源隔离,提供独立按需弹性

  • 通过 local cache 机制,实现冷热数据的自动管理

了解更多:https://mp.weixin.qq.com/s/N9zpkQHROG098uHlwTFZfA

2. StarRocks 提供以下哪些数据源的查询能力(多选)ABCD

A. 数据湖:Iceberg/ Deltalake/ Hudi/ Paimon

B. 数仓:Hive

C. 业务库:MySQL/PostgreSQL

D. 检索分析引擎:Elasticsearch

在 StarRocks 中,您可以通过 external catalog 直接查询外部数据,无需进行数据导入或迁移。当前支持创建以下类型的 external catalog:

了解更多:https://docs.starrocks.io/zh-cn/latest/data_source/catalog/catalog_overview

3. StarRocks 在()情况下更能发挥极速查询能力(单选)A

A. 查询非常复杂的场景

B. 查询非常简单的场景

StarRocks 湖仓分析最简单的方式是直接查询,不需要将数据导入进 StarRocks。只要你的存储性能够好,并且你的 SQL 足够复杂,那么直接查就能比其他查询引擎有倍数的性能提升。

了解更多:必看使用手册|使用 StarRocks 极速数据湖查询的正确姿势

4. 开启 StarRocks 的 Data Cache 有什么好处?(多选)AB

A. 避免 HDFS 或外部存储的抖动,从而提升查询稳定性

B. 降低重复 IO 开销,在频繁访问相同数据时提升查询性能

C. 将结果缓存在本地,对完全一致的查询直接返回查询结果

Data Cache:将外部存储系统的原始数据按照一定策略切分成多个 block 后,缓存至 StarRocks 的本地 BE 节点,从而避免重复的远端数据拉取开销,实现热点数据查询分析性能的进一步提升。

了解更多:https://docs.starrocks.io/zh-cn/latest/data_source/data_cache

5. Iceberg Catalog 在 3.1 版本中支持()功能?(多选)ABC

A. 查询 v1 和 v2 格式的表数据

B. 在 Iceberg Catalog 内创建库表

C. 向 Iceberg 表内导入数据

在 StarRocks 侧创建或删除 Iceberg 库表,或通过 INSERT INTO 把 StarRocks 表数据写入到 Parquet 格式的 Iceberg 表中。Iceberg Catalog 支持查询 v1 表数据。自 3.0 版本起支持查询 ORC 格式的 v2 表数据,自 3.1 版本起支持查询 Parquet 格式的 v2 表数据。

了解更多:https://docs.starrocks.io/zh-cn/latest/data_source/catalog/iceberg_catalog

6. 以下哪些是 StarRocks “极速”数据湖查询的正确姿势?(多选)ABC

A. 开启 Data Cache

B. 在存储性能够好,且 SQL 足够复杂的情况下可直接查询,不将数据导入进 StarRocks

C. 使用 StarRocks 物化视图做查询加速

了解更多:

  1. 必看使用手册|使用 StarRocks 极速数据湖查询的正确姿势

  2. https://mp.weixin.qq.com/s/jPQE3WHP5nl5r3TGqOcIjQ

7. 在 External Catalog 上建异步物化视图,以下()说法不正确?(多选)AD

A. Hive Catalog 上创建物化视图需要全表刷新,不能分区刷新

B. Hive Catalog,Iceberg Catalog, Hudi Catalog都可以创建异步物化视图

C. 如果设置了定时刷新,StarRocks 会自动定期将数据更新至 StarRocks 内部

D. 外表物化视图存储在湖上,不能利用 StarRocks 的原生存储加速能力

了解更多:https://docs.starrocks.io/zh-cn/latest/using_starrocks/Materialized_view

8. 以下哪个功能是 StarRocks 3.1 才开始支持的功能:(单选)C

A. Parquet/ORC 文件外表

B. Iceberg Catalog

C. Paimon Catalog

D. Apache Hudi MOR 表

3.1 版本新增支持了 Elasticsearch catalog、Paimon catalog,并进一步增强 Trino 语法兼容性

了解更多:https://mp.weixin.qq.com/s/sryxFDRAP1M_ffxyUMhSEA

9. 开启 data cache 会不会带来一致性问题?(单选)B

A. 会

B. 不会

Data cache 的粒度是 file 的范围,file 本身是 immutable 的,所以 cache 不会引入一致性问题

了解更多:https://docs.starrocks.io/zh-cn/latest/data_source/data_cache

10. 目前 StarRocks 是不是只能查湖,不能写?(单选)B

A. 是

B. 否

从 3.1 开始 StarRocks 发布了写入 iceberg 的能力,后续会继续支持写入 hive

了解更多:https://mp.weixin.qq.com/s/sryxFDRAP1M_ffxyUMhSEA

11. Data cache 会不会要求我配置很多磁盘,是不是高富帅才玩得起?(单选)B

A. 是

B. 否

一般来说我们频繁访问的数据都是近期产生的,并且并不是所有库/表都是同等重要的,后续我们会陆续补充 data cache 黑白名单,warmup 等能力来完善 data cache 的使用限制,确保 data cache 可以服务于关键库/表/分区,而不会被 ad hoc 查询说污染,这样可以在资源有限的情况下,尽量 cache 最重要的数据

12. Data Cache是否支持只针对特定查询的数据进行缓存/不缓存?(单选)A

A. 是

B. 否

配置 Data Cache 后,当前我们可以通过 enable_populate_block_cache session 变量来控制某次查询涉及到的数据是否要填充缓存。后续,我们会增加黑白名单,进一步增加使用灵活性。

了解更多:https://docs.starrocks.io/zh-cn/latest/data_source/data_cache

13. 新增BE节点是否会导致原有data cache缓存全部失效?(单选)B

A. 是

B. 否

StarRocks 采用一致性哈希算法将用户查询涉及到的数据缓存到多个 BE 节点,增加/删除单台 BE 节点时除个别节点缓存失效外,大部分原有缓存数据不受影响,可继续使用。


:trophy: 竞猜得奖名单

第一名 (三位)

姓名 得分 所用时间 提交时间
邵庆 100 48秒 10:43:40
陈嘉琪 100 64秒 11:02:02
罗生 100 97秒 11:05:43

第二名 (五位)

姓名 得分 所用时间 提交时间
非非非语 100 52秒 10:42:10
慕佑琛 100 261秒 10:45:13
文新 100 147秒 10:46:54
陈允德 100 49秒 11:12:15
李政华 100 243秒 12:08:41

第三名 (五位)

姓名 得分 所用时间 提交时间
高源 100 204秒 12:12:26
程真 100 3826秒 12:27:16
雪落成花 100 3508秒 12:28
吴梦龙 100 175秒 12:31
今天不回家 100 695秒 13:05:21

恭喜这几位小伙伴:tada: 欢迎后台加小助手领奖~
论坛-StarRocks小助手