Used: 438105027512, Limit: 438103947386. Mem usage has exceed the limit of single query, You can change the limit by set session variable exec_mem_limit目前我设置比较这个限制的值大，还是报错超出限制，

LIANGCHAOHUA · 2022年09月6日 03:58

不知道哪里出问题了，您把软件目录删了，重新弄试一下？

U_1661311713302_9922 · 2022年09月6日 03:58

可以了，需要等所有的表全部生成完毕，然后再在看就正常了

LIANGCHAOHUA · 2022年09月6日 03:59

嗯数据生成后检查一下再导入吧麻烦您了

U_1661311713302_9922 · 2022年09月6日 04:00

我可以采用分布式，每个机器的指定不同的表，这个方式命令应该怎么写呢

LIANGCHAOHUA · 2022年09月6日 04:01

我不太懂，每个机器指定不同的表是什么意思？

U_1661311713302_9922 · 2022年09月6日 04:03

我现在有10台机器，我想的是lineitem这个表不是最大吗这个表在一台其实上单独生成

LIANGCHAOHUA · 2022年09月6日 04:07

如果分布键均匀分布，这个表数据会均匀分布在9个be

U_1661311713302_9922 · 2022年09月6日 04:09

# generate 100GB data under the `data_100` directory
./bin/gen_data/gen-tpch.sh 100 data_100

这个命令不是会生成8个表的数据吗？我现在只想生成一张表的数据，应该怎么指定呢

LIANGCHAOHUA · 2022年09月6日 04:14

这个要看一下能不能指定

U_1661311713302_9922 · 2022年09月6日 06:05

麻烦问一下-ds 的你们数据，你们生成的数据有出现空的吗

LIANGCHAOHUA · 2022年09月6日 06:09

我这边没有-ds，看您的截图觉得太多字段NULL，可能会有问题。

U_1661311713302_9922 · 2022年09月6日 06:17

对，你们那边不是测试过ds 1t 的吗

LIANGCHAOHUA · 2022年09月6日 06:19

cat bin/gen_data/gen-tpch.sh
table_names=(“customer” “lineitem” “nation” “orders” “parts” “partsupp” “region” “suppliers”)
tables=( “c” “L” “n” “O” “P” “S” “r” “s”)
脚本里这里调一下就可以只生成 lineitem吧

LIANGCHAOHUA · 2022年09月6日 06:24

ds没在官网展示出来，只是有一些测试结果，不像官网有详细的测试过程，所以我较难复现。

LIANGCHAOHUA · 2022年09月6日 06:29

参数那增加多一个优化
runtime_join_filter_push_down_limit=2048000

参数优化
2.3.0
enable_pipeline_engine=true
parallel_fragment_exec_instance_num=1
pipeline_dop=64
exec_mem_limit = 515396075520
runtime_join_filter_push_down_limit=2048000

be.conf
mem_limit=95%
disable_storage_page_cache=false
storage_page_cache_limit= 64G
麻烦您调整一下。

U_1661311713302_9922 · 2022年09月6日 06:46

我估计数据生成的话也得1天10T的数据

LIANGCHAOHUA · 2022年09月6日 06:52

如果SSD，估计半天至1天的时间

U_1661311713302_9922 · 2022年09月6日 12:15

我看一下目前lineitem 这个表生成有点慢，能否这个表在多台机器上生成呢

LIANGCHAOHUA · 2022年09月6日 12:27

多台机同时生成吧，明细模型可以存在重复数据的，没关系

LIANGCHAOHUA · 2022年09月7日 06:13

数据生成和测试顺利吗？