一天百万级多维度group by聚合查询优化

Joekwal · 2023年08月8日 07:23

【StarRocks版本】 2.4.1

【详述】
方案未确定，寻找单表查询的可行性。目前场景需要能做到实时查询，利用flink打宽表写入starrocks，一天产生的数据量级大概2~3M。

创建主键模型，主键为日期，团队权限，分类，产品维度，按天分区，按团队权限hash分桶（假设数据均匀的情况）

维度：日期（可自定义范围），大部门权限a，团队权限b，个人权限c，（关系：a与b多对多，b与c多对多，a与c一对多）产品，产品分类，产品品牌，产品上架时间等等…

指标：产品销量、产品销售额、页面浏览量、产品转化率等等…

值得注意的是：产品可以挂到不同产品分类上，因此，如果单纯按照个人权限维度去汇总指标，那就需要先对产品维度去重，再去汇总指标。（上述有多种同样的场景，只举一个例子说明）

目前线上3台机器，配置相同 3FE 3BE 16C/64G（机器不能再升级，成本大）
要求查询响应在3s内。

【测试情况】
3台测试机器：3FE3BE 机器配置：8C/14G
利用Flink Datagen connector制造虚拟数据灌入starrocks，未添加任何索引，只取了几个维度指标做查询查看情况。

SELECT 个人权限,count(产品维度),sum(a),sum(b),sum(c) from (
SELECT 个人权限,产品维度,sum(`销量`) as a,sum(`销售额`) as b,min(`页面浏览量`) as `c` from Table_Test
WHERE `日期` BETWEEN '2023-08-03' and '2023-09-03' group by 产品维度,个人权限) d group by [个人权限];

一个月查询耗时13~15s。

【问题概要】
1.时间范围自定义，最大可到一年，查询的数据量级达到10亿，若缩减查询范围，三个月的量也近2亿；
2.维度多，有10个，统计指标近40个；
3.需要去重汇总

【疑问】
对于目前的starrocks版本，是否不太适用于多维度聚合查询的场景？或者有其他好的方案？
我看3.0以上版本，主键模型解耦了主键列和排序列，若将数据维度设置为排序列，是否代表能命中索引加速查询？排序列能设置多少个？排序列过多是否会影响写入或者引发其他的隐患？

许秀不许秀 · 2023年08月8日 07:52

我们最近在正好在优化这个场景

许秀不许秀 · 2023年08月8日 07:53

加个微信我们详细聊聊？

U_1691480183588_0651 · 2023年08月8日 07:54

我在测试时也发现了这个问题，这个对我们选型影响非常大，希望进一步沟通一下

许秀不许秀 · 2023年08月8日 07:55

CHN10151 加一下我的微信

U_1691480183588_0651 · 2023年08月8日 07:57

好友请求已发送，麻烦您通过一下

Joekwal · 2023年08月8日 07:58

好的，加了通过下

U_1702287953122_8425 · 2023年12月11日 09:48

大佬,你们这个场景有优化解决吗? 我们最近也遇到了这个问题

许秀不许秀 · 2023年12月13日 11:46

3.2 支持了colocate AGG 优化，主要是内存使用的会更少一些，性能提升不明显

许秀不许秀 · 2023年12月13日 11:47

这类场景如果直接走AGG模型或者是MV会好点

U_1708616220324_8657 · 2024年02月22日 15:51

我感觉你这个场景如果查询是固定的话，就适合搞个实时物化视图，比如 RisingWave 这种的，没必要硬算。这样灵活又不会崩。

CREATE MATERIALIZED VIEW mv_d AS
    SELECT
      个人权限,
      产品维度,
      sum(`销量`) as a,
      sum(`销售额`) as b,
      min(`页面浏览量`) as`c`
    from
      Table_Test
    group by
      产品维度,
      个人权限;


SELECT
  个人权限,
  count(产品维度),
  sum(a),
  sum(b),
  sum(c)
from mv_d
group by
  [个人权限];