Used: 438105027512, Limit: 438103947386. Mem usage has exceed the limit of single query, You can change the limit by set session variable exec_mem_limit目前我设置比较这个限制的值大,还是报错超出限制,

我看他生成的数据文本 应该不会有null,我要把数据导入表里看看是否正常。 请稍等


l_orderkey是正常的,麻烦您看看你那边为什么都是null

image

数据分布也很均匀的,数据生成出问题了,解决后就好了

嗯嗯好的,还有一个跟您说一下,你看一下建表语句的最后一个字段,是我们自己加的,加的原因是生成完数据多一个| ,然后加一个字段当作空处理

t varchar(15) NULL COMMENT “” 这个是您自己加吧,是不是改动后,导致l_orderkey变成null了

您那边的建表语句我是我们自己提供的吗

嗯嗯是的,是我们自己加的

https://docs.starrocks.com/zh-cn/latest/benchmarking/TPC-H_Benchmark
我是按照官方文档来操作,我觉得表字段不要加减,分布键是可以调的,加分区应该不影响。

这个是我们生成的数据,后面多一个| 导致数据导入失败


我这边后面没有|

./bin/gen_data/gen-tpch.sh 100 data_100

100就是100G,data_100只是一个目录名字,根据实际起名就ok

我问一下我们那边同事是用的那个程序生成的,我下午用您这边的程序生成一下试试

image
这些可以配置大点加快效率

1赞

嗯嗯好的,我下午按照您的方式生成一下数据,然后在导入跑一下

嗯嗯 表结构还是按照我给你最后一版调一下分布键,分区,colocate join那些就ok

嗯嗯好的,感谢您的指导我们在测试一下

用您们的程序生成是没问题的,数据正确就好了

我们还是用starrocks 官网上生成吧

使用ddl_1000那个。
DUPLICATE KEY(l_orderkey, l_linenumber, l_shipdate)
COMMENT “OLAP”
PARTITION BY RANGE(l_shipdate)
(
START (“1992-01-01”) END (“1999-01-01”) EVERY (INTERVAL 1 year)
)
DISTRIBUTED BY HASH(l_orderkey) BUCKETS 48
PROPERTIES (
“replication_num” = “1”,
“in_memory” = “false”,
“storage_format” = “DEFAULT”,
“colocate_with” = “group_tpch_1000”
);

把BUCKETS改为我给您的那个, colocate with 把 lineitem和orders,part和partsupp关系弄好就ok

我们生成的数据还是有|


麻烦你帮忙看看,我就是starrocks 官网下载的程序