我看他生成的数据文本 应该不会有null,我要把数据导入表里看看是否正常。 请稍等
数据分布也很均匀的,数据生成出问题了,解决后就好了
嗯嗯好的,还有一个跟您说一下,你看一下建表语句的最后一个字段,是我们自己加的,加的原因是生成完数据多一个| ,然后加一个字段当作空处理
t
varchar(15) NULL COMMENT “” 这个是您自己加吧,是不是改动后,导致l_orderkey变成null了
您那边的建表语句我是我们自己提供的吗
嗯嗯是的,是我们自己加的
https://docs.starrocks.com/zh-cn/latest/benchmarking/TPC-H_Benchmark
我是按照官方文档来操作,我觉得表字段不要加减,分布键是可以调的,加分区应该不影响。
./bin/gen_data/gen-tpch.sh 100 data_100
100就是100G,data_100只是一个目录名字,根据实际起名就ok
我问一下我们那边同事是用的那个程序生成的,我下午用您这边的程序生成一下试试
这些可以配置大点加快效率
嗯嗯好的,我下午按照您的方式生成一下数据,然后在导入跑一下
嗯嗯 表结构还是按照我给你最后一版调一下分布键,分区,colocate join那些就ok
嗯嗯好的,感谢您的指导我们在测试一下
用您们的程序生成是没问题的,数据正确就好了
我们还是用starrocks 官网上生成吧
使用ddl_1000那个。
DUPLICATE KEY(l_orderkey
, l_linenumber
, l_shipdate
)
COMMENT “OLAP”
PARTITION BY RANGE(l_shipdate
)
(
START (“1992-01-01”) END (“1999-01-01”) EVERY (INTERVAL 1 year)
)
DISTRIBUTED BY HASH(l_orderkey
) BUCKETS 48
PROPERTIES (
“replication_num” = “1”,
“in_memory” = “false”,
“storage_format” = “DEFAULT”,
“colocate_with” = “group_tpch_1000”
);
把BUCKETS改为我给您的那个, colocate with 把 lineitem和orders,part和partsupp关系弄好就ok