Used: 438105027512, Limit: 438103947386. Mem usage has exceed the limit of single query, You can change the limit by set session variable exec_mem_limit目前我设置比较这个限制的值大,还是报错超出限制,

如果重复的数据太多的话是不是会影响i性能

还好吧,不要一条数据重复一亿条,应该问题不大

我现在是10台机器,我现在每台机器生成一个1t的数据,这样应该可以吗,会导致数据重复多吗

不会吧 凑字 凑字

这次我就严格按照,那个程序去生成数据,还是不行,能帮忙一起定位问题吗

或者我们选择分布数据键选三个或者是两个就可以把数据均匀分布

不行的,多个分布键就用不上colocate join了

是不是生成的文件 最后的| 没有去掉 用tail 看看每个文件

去掉了,我看了,能腾讯会议我展示给您看吗

我相信您的,每个文件的列那些位置是一样的吧?

我看也一样,现在是生成100条,当导入10条一会就出现null了


我这边导入5000多万,没发现null,能把操作简单发一下吗?

第一步:修改脚本,让只生成一个表数据 gen-tpch.sh


第二步:
./gen_data/gen-tpch.sh 10240 data_lineitem_10T
然后就执行上面的命令,然后我看sed 处理完一个我就上传到hdfs
第三步:
建表CREATE TABLE lineitem (
l_orderkey int(11) NULL COMMENT “”,
l_partkey int(11) NULL COMMENT “”,
l_suppkey int(11) NULL COMMENT “”,
l_linenumber int(11) NULL COMMENT “”,
l_quantity decimal64(15, 2) NULL COMMENT “”,
l_extendedprice decimal64(15, 2) NULL COMMENT “”,
l_discount decimal64(15, 2) NULL COMMENT “”,
l_tax decimal64(15, 2) NULL COMMENT “”,
l_returnflag varchar(1) NULL COMMENT “”,
l_linestatus varchar(1) NULL COMMENT “”,
l_shipdate date NULL COMMENT “”,
l_commitdate date NULL COMMENT “”,
l_receiptdate date NULL COMMENT “”,
l_shipinstruct varchar(25) NULL COMMENT “”,
l_shipmode varchar(10) NULL COMMENT “”,
l_comment varchar(44) NULL COMMENT “”
) ENGINE=OLAP
DUPLICATE KEY(l_orderkey, l_partkey,l_suppkey)
PARTITION BY RANGE (l_shipdate) (
START (“1992-01-02”) END (“1998-12-02”) EVERY (INTERVAL 1 MONTH)
)
DISTRIBUTED BY HASH(l_orderkey) BUCKETS 576
PROPERTIES (
“replication_num” = “1”,
“in_memory” = “false”,
“bloom_filter_columns” = “l_partkey,l_suppkey”,
“storage_medium” = “SSD”,
“colocate_with” = “tpch2”,
“storage_format” = “DEFAULT”
);
第四步执行导入
LOAD LABEL tcph10tmp.lineitem1705 ( DATA INFILE(“hdfs://tpcds-bdp-02:8020/data/tcph/tcph10tmp/lineitem/lineitem.tbl.10”) INTO TABLE lineitem COLUMNS TERMINATED BY ‘|’ ) WITH BROKER ‘broker1’;

这个是处理完的数

我没有上传到hdfs的操作,我是跑 ```
./bin/stream_load.sh data_100

是走stream load,您那个是放到hdfs,然后走broker load。
可能是把数据放到hdfs时出问题,麻烦看一下hdfs里的数据格式是否正常。

关键是导入前10条没有问题,10条以后就不行了

我用 stream_load.sh 试试

broker load导入时有报错信息吗?

show load order by createtime desc limit 1\G 我是用这个看的没有看到错误