Used: 438105027512, Limit: 438103947386. Mem usage has exceed the limit of single query, You can change the limit by set session variable exec_mem_limit目前我设置比较这个限制的值大,还是报错超出限制,


不知道哪里出问题了,您把软件目录删了,重新弄试一下?

可以了,需要等所有的表全部生成完毕,然后再在看就正常了

嗯 数据生成后检查一下再导入吧 麻烦您了

我可以采用分布式,每个机器的指定不同的表,这个方式命令应该怎么写呢

我不太懂,每个机器指定不同的表是什么意思?

我现在有10台机器,我想的是lineitem这个表不是最大吗 这个表在一台其实上单独生成

如果分布键均匀分布,这个表数据会均匀分布在9个be

# generate 100GB data under the `data_100` directory
./bin/gen_data/gen-tpch.sh 100 data_100

这个命令 不是会生成8个表的数据吗?我现在只想生成一张表的数据,应该怎么指定呢

这个要看一下能不能指定

麻烦问一下-ds 的你们数据,你们生成的数据有出现空的吗

我这边没有-ds,看您的截图觉得太多字段NULL,可能会有问题。

对,你们那边不是测试过ds 1t 的吗

cat bin/gen_data/gen-tpch.sh
table_names=(“customer” “lineitem” “nation” “orders” “parts” “partsupp” “region” “suppliers”)
tables=( “c” “L” “n” “O” “P” “S” “r” “s”)
脚本里这里调一下就可以只生成 lineitem吧

ds没在官网展示出来,只是有一些测试结果,不像官网有详细的测试过程,所以我较难复现。

参数那增加多一个优化
runtime_join_filter_push_down_limit=2048000

参数优化
2.3.0
enable_pipeline_engine=true
parallel_fragment_exec_instance_num=1
pipeline_dop=64
exec_mem_limit = 515396075520
runtime_join_filter_push_down_limit=2048000

be.conf
mem_limit=95%
disable_storage_page_cache=false
storage_page_cache_limit= 64G
麻烦您调整一下。

我估计数据生成的话也得1天10T的数据

如果SSD,估计半天至1天的时间

我看一下目前lineitem 这个表生成有点慢,能否这个表在多台机器上生成呢

多台机同时生成吧,明细模型可以存在重复数据的,没关系

数据生成和测试顺利吗?