too many tablet versions

image
be.conf 这么配置有问题吗

不好意思 datax 也刚上手 sink 配置是指哪个文件?

这个配置去掉试试呢

另外这个表有其他导入吗?现在问题的原因是导入频率太高了,每次导入算作一个版本,导入频率太高很容易达到版本个数限制。增大单个批次导入数据量,降低导入频率

没有其他导入 我看别的用户也是这么说的 说是在be.conf 配置
cumulative_compaction_num_threads_per_disk = 4
base_compaction_num_threads_per_disk = 2
cumulative_compaction_check_interval_seconds = 2

我已经配置了

有重启过be服务吗

去掉 “byte”:6291456 了 ,还是哪个错,配置完合并策略就重启了be了

你的用法有问题,writer需要用starrockwriter,具体使用请参考https://docs.starrocks.com/zh-cn/main/loading/DataX-starrocks-writer

image

starrockswriter

那上面发的为啥是mysqlwriter?

starrockswriter,改了在調整下,json格式就可以 ,非常感谢 :grinning: :grinning: :grinning:

1赞

我用的 datax-web 配置的json,datax web没有starrocks选项,我就用mysql的选项了,想着后面再改来着,然后就没有然后嘞,


现在可以了就是导入速度有点慢,我看资源占用不是很大,优化参数配置是该刚才的那个
cumulative_compaction_num_threads_per_disk = 4
base_compaction_num_threads_per_disk = 2
cumulative_compaction_check_interval_seconds = 2

请问是不是只有更新模型和聚合模型才会有这too many tablet versions的问题,明细模型是不需要合并版本的?

明细模型也需要,同一个tablet多次导入的数据就是不同的version,也需要合并重排序

请问json格式和csv格式的话,哪种格式的导入速度会快一些

csv格式相对快一些

1.增大单次导入数据量,降低频率,这个措施是怎么设置吗?我使用的是datax,“loadProps”:{
“format”:“json”,
“strict_mode”:true,
“strip_outer_array”:true
},json参数是这样的。

datax配置文件中增加参数:“maxBatchSize”: 10000000

datax导入可参考官方文档 https://docs.starrocks.io/zh/docs/integrations/loading_tools/DataX-starrocks-writer/