【详述】问题详细描述
业务需要一张去重表,除了id字段,其他属性(包括update_time,天为单位)都需要做非空更新。
但当前去重表数据量非常大,按update_time取数据,感觉每次都要扫描全表。
有解决方法或更好的方案吗?
去重表建表语句如下:
CREATE TABLE topdomain_basic_uniq
(
id
varchar(65533) NOT NULL COMMENT “”,
update_time
datetime REPLACE_IF_NOT_NULL NULL COMMENT “”,
taskid
varchar(65533) REPLACE_IF_NOT_NULL NULL COMMENT “”,
create_user
varchar(65533) REPLACE_IF_NOT_NULL NULL COMMENT “”,
data_source
varchar(65533) REPLACE_IF_NOT_NULL NULL COMMENT “”,
update_user
varchar(65533) REPLACE_IF_NOT_NULL NULL COMMENT “”,
create_time
datetime REPLACE_IF_NOT_NULL NULL COMMENT “”,
name
varchar(65533) REPLACE_IF_NOT_NULL NULL COMMENT “”,
data_status
int(11) REPLACE_IF_NOT_NULL NULL COMMENT “”,
label_suspect_cdn
varchar(65533) REPLACE_IF_NOT_NULL NULL COMMENT “”
) ENGINE=OLAP
AGGREGATE KEY(id
)
COMMENT “OLAP”
DISTRIBUTED BY HASH(id
) BUCKETS 64
PROPERTIES (
“replication_num” = “3”,
“in_memory” = “false”,
“storage_format” = “DEFAULT”
);
【导入/导出方式】
【背景】做过哪些操作?
【业务影响】
【StarRocks版本】例如:1.19
【集群规模】例如:3fe(1 follower+2observer)+6be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,例如:48C/64G/万兆
【附件】
- fe.warn.log/be.warn.log/相应截图