使用datax同步数据时出现json超100M报错

dxndxn · 2023年01月12日 00:45

【详述】问题详细描述
{“Status”:“Fail”,“BeginTxnTimeMs”:0,“Message”:“The size of this batch exceed the max size [104857600] of json type data data [ 106326354 ]. Set ignore_json_size to skip the check, although it may lead huge memory consuming.”,“NumberUnselectedRows”:0,“CommitAndPublishTimeMs”:0,“Label”:“7271dbc1-e801-4a3b-b59a-e6a5789b8afc”,“LoadBytes”:0,“StreamLoadPutTimeMs”:0,“NumberTotalRows”:0,“WriteDataTimeMs”:0,“TxnId”:-1,“LoadTimeMs”:0,“ReadDataTimeMs”:0,“NumberLoadedRows”:0,“NumberFilteredRows”:0}
【背景】做过哪些操作？
datax同步数据
【业务影响】
【StarRocks版本】例如：2.3.0
【集群规模】例如：3fe（1 follower+2observer）+5be（fe与be混部）
【机器信息】CPU虚拟核/内存/网卡，例如：48C/64G/万兆
【表模型】例如：主键模型
【导入或者导出方式】例如：datax

fe.log/be.INFO/相应截图

JiangLai · 2023年01月12日 02:04

datax底层走的stream load导入方式，可以设置参数忽略100M的限制，可以在该篇文章找到相关参数：https://docs.starrocks.io/zh-cn/latest/loading/StreamLoad#导入-json-格式的数据

Alex777 · 2024年05月8日 08:54

datax json文件设置ignore_json_size:true不生效咋回事呢？