Used: 438105027512, Limit: 438103947386. Mem usage has exceed the limit of single query, You can change the limit by set session variable exec_mem_limit目前我设置比较这个限制的值大,还是报错超出限制,

用双引号 “|”

清表用drop table xxx force;

我在测试一下,按照您的建议加上”“

加上双引号还是不行,我直接按照你的方式导入吧

数据分布键我们选择第二列或者是第三列这样也可以吧

选择其他分布键就用不了colocate join

现在hdfs 上的数据也没有变换,以你们以往的经验,像我这样疑难杂症有解决办法吗

前10条没问题,后面都有问题,就只有那个字段变成null,这个有点奇怪,暂时没思路。

原文本 cat -A 看看是不是有什么特殊字符在那个字段里


是有$

最后有$是正常,您是怎么导入hdfs得?

hdfs dfs -put 直接put 上去

是每个文件 前10行都是正常 后面都不正常吗?

是不是导入的数据超过int的限制了,把字段改为bigint

把那些分布键改为bigint,然后对应colocate join的键也要改为bigint

我看后几行也正常的

把那个改为bigint,然后导入一个文件试试

我在导入呢,稍等导入完试试

导入一个文件后成功吗?

现在可以了看上去,就是int 修改成才bigint,数据分布列重复值越少性能越好吧