可以了,需要等所有的表全部生成完毕,然后再在看就正常了
嗯 数据生成后检查一下再导入吧 麻烦您了
我可以采用分布式,每个机器的指定不同的表,这个方式命令应该怎么写呢
我不太懂,每个机器指定不同的表是什么意思?
我现在有10台机器,我想的是lineitem这个表不是最大吗 这个表在一台其实上单独生成
如果分布键均匀分布,这个表数据会均匀分布在9个be
# generate 100GB data under the `data_100` directory
./bin/gen_data/gen-tpch.sh 100 data_100
这个命令 不是会生成8个表的数据吗?我现在只想生成一张表的数据,应该怎么指定呢
这个要看一下能不能指定
我这边没有-ds,看您的截图觉得太多字段NULL,可能会有问题。
对,你们那边不是测试过ds 1t 的吗
cat bin/gen_data/gen-tpch.sh
table_names=(“customer” “lineitem” “nation” “orders” “parts” “partsupp” “region” “suppliers”)
tables=( “c” “L” “n” “O” “P” “S” “r” “s”)
脚本里这里调一下就可以只生成 lineitem吧
ds没在官网展示出来,只是有一些测试结果,不像官网有详细的测试过程,所以我较难复现。
参数那增加多一个优化
runtime_join_filter_push_down_limit=2048000
参数优化
2.3.0
enable_pipeline_engine=true
parallel_fragment_exec_instance_num=1
pipeline_dop=64
exec_mem_limit = 515396075520
runtime_join_filter_push_down_limit=2048000
be.conf
mem_limit=95%
disable_storage_page_cache=false
storage_page_cache_limit= 64G
麻烦您调整一下。
我估计数据生成的话也得1天10T的数据
如果SSD,估计半天至1天的时间
我看一下目前lineitem 这个表生成有点慢,能否这个表在多台机器上生成呢
多台机同时生成吧,明细模型可以存在重复数据的,没关系
数据生成和测试顺利吗?