catalog 查询数据量不对问题

SharkaLaga · 2026年04月2日 03:02

给一下stage_fact_events的show create table？怀疑是时区问题造成的，time字段如果是datetime类型大概率是不会有问题,检查一下各个环境变量。jdbc uri增加serverTimezone=Asia/Shanghai试一下。两个库SHOW VARIABLES LIKE ‘%time_zone%’;看一下

coder_coding · 2026年04月2日 03:31

CREATE TABLE stage_fact_events (
uuid varchar(65533) NOT NULL COMMENT “事件UUID”,
time datetime NOT NULL COMMENT “事件发生时间”,
partition bigint(20) NULL COMMENT “kafka分区信息”,
offset bigint(20) NULL COMMENT “kafka偏移量”,
create_time datetime NULL COMMENT “入库时间”,
distinct_id varchar(65533) NULL COMMENT “用户唯一标识，一般为OpenID (由CP调用时传入)”,
devicecode varchar(65533) NULL COMMENT “设备码 (由CP调用时传入)”,
type varchar(65533) NULL COMMENT “事件类型”,
event varchar(65533) NULL COMMENT “埋点标识 (由CP调用时传入)”,
ip varchar(65533) NULL COMMENT “IP地址”,
cpid bigint(20) NULL COMMENT “CPID”,
app_id varchar(65533) NULL COMMENT “APPID”,
product_id varchar(65533) NULL COMMENT “产品ID”,
platform_id bigint(20) NULL COMMENT “平台ID 1:安卓, 2：ios, 3:H5, 4:微信小程序”,
channel_id varchar(65533) NULL COMMENT “渠道ID”,
sub_channel_id varchar(65533) NULL COMMENT “子渠道ID”,
properties varchar(1048576) NULL COMMENT “”,
event_time datetime NULL COMMENT “kafka上报时间”,
topic varchar(65533) NULL COMMENT “kafka topic”,
partition_id bigint(20) NULL COMMENT “kafka分区id”
) ENGINE=OLAP
PRIMARY KEY(uuid, time)
COMMENT “OLAP”
PARTITION BY RANGE(time)
(PARTITION p20260326 VALUES [(“2026-03-26 00:00:00”), (“2026-03-27 00:00:00”)),
PARTITION p20260327 VALUES [(“2026-03-27 00:00:00”), (“2026-03-28 00:00:00”)),
PARTITION p20260328 VALUES [(“2026-03-28 00:00:00”), (“2026-03-29 00:00:00”)),
PARTITION p20260329 VALUES [(“2026-03-29 00:00:00”), (“2026-03-30 00:00:00”)),
PARTITION p20260330 VALUES [(“2026-03-30 00:00:00”), (“2026-03-31 00:00:00”)),
PARTITION p20260331 VALUES [(“2026-03-31 00:00:00”), (“2026-04-01 00:00:00”)),
PARTITION p20260401 VALUES [(“2026-04-01 00:00:00”), (“2026-04-02 00:00:00”)),
PARTITION p20260402 VALUES [(“2026-04-02 00:00:00”), (“2026-04-03 00:00:00”)),
PARTITION p20260403 VALUES [(“2026-04-03 00:00:00”), (“2026-04-04 00:00:00”)),
PARTITION p20260404 VALUES [(“2026-04-04 00:00:00”), (“2026-04-05 00:00:00”)),
PARTITION p20260405 VALUES [(“2026-04-05 00:00:00”), (“2026-04-06 00:00:00”)))
DISTRIBUTED BY HASH(uuid, time) BUCKETS 32
PROPERTIES (
“replication_num” = “3”,
“dynamic_partition.enable” = “true”,
“dynamic_partition.time_unit” = “DAY”,
“dynamic_partition.time_zone” = “Asia/Shanghai”,
“dynamic_partition.start” = “-7”,
“dynamic_partition.end” = “3”,
“dynamic_partition.prefix” = “p”,
“dynamic_partition.history_partition_num” = “0”,
“in_memory” = “false”,
“enable_persistent_index” = “true”,
“replicated_storage” = “false”,
“fast_schema_evolution” = “true”,
“compression” = “ZSTD”
);

coder_coding · 2026年04月2日 03:33

SharkaLaga · 2026年04月2日 04:00

EXPLAIN VERBOSE 看一下同样SQL在两个库分别的执行计划

coder_coding · 2026年04月2日 05:08

存算一体，非catalog的explain:

PLAN FRAGMENT 0
 OUTPUT EXPRS:21: count
  PARTITION: UNPARTITIONED

  RESULT SINK

  4:AGGREGATE (merge finalize)
  |  output: count(21: count)
  |  group by: 
  |  
  3:EXCHANGE

PLAN FRAGMENT 1
 OUTPUT EXPRS:
  PARTITION: RANDOM

  STREAM DATA SINK
    EXCHANGE ID: 03
    UNPARTITIONED

  2:AGGREGATE (update serialize)
  |  output: count(*)
  |  group by: 
  |  
  1:Project
  |  <slot 23> : 1
  |  
  0:OlapScanNode
     TABLE: stage_fact_events
     PREAGGREGATION: ON
     PREDICATES: 17: properties LIKE '%track_desc%'
     partitions=1/11
     rollup: stage_fact_events
     tabletRatio=32/32
     tabletList=89405309,89405313,89405317,89405321,89405325,89405329,89405333,89405337,89405341,89405345 ...
     cardinality=143316889
     avgRowSize=1038.0966

存算分离，catalog的执行计划：

PLAN FRAGMENT 0
 OUTPUT EXPRS:21: count
  PARTITION: UNPARTITIONED

  RESULT SINK

  4:AGGREGATE (merge finalize)
  |  output: count(21: count)
  |  group by: 
  |  
  3:AGGREGATE (update serialize)
  |  output: count(*)
  |  group by: 
  |  
  2:Project
  |  <slot 23> : 1
  |  
  1:SELECT
  |  predicates: properties LIKE '%track_desc%'
  |  
  0:SCAN JDBC
     TABLE: `stage_fact_events`
     QUERY: SELECT `properties`, `time` FROM `stage_fact_events` WHERE (`time` >= '2026-03-31 00:00:00') AND (`time` < '2026-04-01 00:00:00')

coder_coding · 2026年04月2日 05:09

大佬，麻烦看下执行计划

SharkaLaga · 2026年04月2日 05:50

OK，我测试一下看

coder_coding · 2026年04月3日 08:52

大佬，测试有结果吗？

SharkaLaga · 2026年04月7日 10:17

我这测试不出问题，有时间我再试一下，我这存算一体的是3.5版本，暂时没有详细测试。你发的这个driver_class可能有问题，改一下试试
CREATE EXTERNAL CATALOG sr_test PROPERTIES (
“type” = “jdbc”,
“user” = “root”,
“password” = “”,
“jdbc_uri” = “jdbc:mysql://centos1:9031”,
“driver_class” = “com.mysql.cj.jdbc.Driver”, --8.0应该是这个class才对，我配置你这个是直接报错的
“driver_url”=“https://repo1.maven.org/maven2/mysql/mysql-connector-java/8.0.28/mysql-connector-java-8.0.28.jar”
);

coder_coding · 2026年04月9日 07:16

大佬，数据量大点呢？比如超过1000w的数据测试一下呢？

coder_coding · 2026年04月9日 07:19

show create catalog 显示的是 com.mysql.jdbc.Driver，您那边呢？

SharkaLaga · 2026年04月9日 07:57

8.0应该用这个才对，新创建一个catalog试一下，等有时间我再试一下大数据量
“driver_class” = “com.mysql.cj.jdbc.Driver”

coder_coding · 2026年04月28日 06:05

刚刚我验证查询了一下，查询1亿数据用catalog是正常了。driver_class 是不是 cj 的都是正常的。
不知道是不是 sql_select_limit 不是立即生效呢？