存算分离版本，简单limit 1内表查询耗时 30s - 2min左右

kyle123 · 2024年06月18日 08:35

【详述】简单limit 1查询，除分区过滤外不加任何过滤条件的内表查询，耗时30s - 2min左右。（基于hdfs存储）
【是否存算分离】是
【StarRocks版本】3.1.11

SQL：select * from ads_report_ad_mi where partition_time > ‘2024-06-07’ limit 1;

补充1：很有意思的一个现象，加了partition_time > ‘2024-06-07’ 这个分区过滤条件反而会慢很多，1分多钟，但是如果只是单纯的select * from ads_report_ad_mi limit 1; 其实会稳定在10s - 20s。看explain，分区都已经被正确地裁剪过了。
补充2：这个表的写入比较频繁。

Doni · 2024年06月18日 09:04

原表建表语句是否设置本地盘cache

image1996×1212 371 KB
提供下完整的查询profile文件 https://docs.starrocks.io/zh/docs/sql-reference/sql-functions/utility-functions/get_query_profile/

kyle123 · 2024年06月18日 10:54

1、内表的data cache没有开启，建表部分语句如下：
AGGREGATE KEY(partition_time, process_time, site_set, site_id, crm_advertiser_industry_id, buying_type, is_adx_ad, is_rta, is_ocpx, bid_type, dpa_ad_type, ocpx_type, optimization_goal, second_optimization_goal, roi_goal, adgroup_id, advertiser_id, agent_id, product_id)
COMMENT “行业实时分钟表”
PARTITION BY date_trunc(‘hour’, partition_time)
DISTRIBUTED BY HASH(adgroup_id)
PROPERTIES (
“replication_num” = “1”,
“bloom_filter_columns” = “optimization_goal, partition_time, adgroup_id, is_rta, agent_id, site_set, bid_type, dpa_ad_type, ocpx_type, process_time, buying_type, advertiser_id, second_optimization_goal, roi_goal, product_id, site_id, crm_advertiser_industry_id”,
“datacache.enable” = “false”,
“storage_volume” = “builtin_storage_volume”,
“enable_async_write_back” = “false”,
“enable_persistent_index” = “false”,
“partition_live_number” = “720”,
“compression” = “LZ4”
);
2、profile文件：
select_1_profile.rtf (35.7 KB)

kyle123 · 2024年06月19日 03:09

补充下，问题应该是聚合表limit 1，没有做tablet裁剪，所以在init的时候打开了节点上的所有tablet（如果此时这个节点的tablet数比较多），所以耗时慢。
这里就有一个问题：为什么聚合表的limit 1查询，不会做tablet裁剪。
分桶key可以不是agg key的子集吗？如果不行，那分桶filter其实就是agg key的filter，那么limit 1应该也不需要读所有tablet？