Flinkcdc导入到SR,已增大buffer相关配置还是报too many filtered rows

上游mysql表数据有400多万条,写入主键模型SR表。我已将缓冲区大小增加到90M,日志显示json格式最大支持100M,请问sink.buffer-flush相关参数如何配置,才能减缓插入的速度

SR primary-key 表:
CREATE TABLE IF NOT EXISTS test.dws_yly
(
BBillNo varchar(50) not null,
Lot varchar(30) not null,
GoodsGuid varchar(32) not null,
BillDate datetime,
DepartureDate date,
ReceiveTime datetime,
CargoOwnerGUID varchar(32),
OldCode varchar(100),
CargoOwnerName varchar(100),
SaleCorpName varchar(100),
GoodsCode varchar(20),
GoodsName varchar(300),
Qty decimal(18,6)
)
PRIMARY KEY(BBillNo,Lot,GoodsGuid)
DISTRIBUTED BY HASH(BBillNo) BUCKETS 10
PROPERTIES(“replication_num” = “1”);

连接器配置:


报错日志:

调小刷新间隔5000ms:


仍然报错:

您curl一下error_url,看下详细的报错信息

非常感谢,显示的是一条数据的某个字段超出定义的表字段长度了。表结构与mysql是一致的为什么会出现这种超出的呢。我增大下字段长下再试试

StarRocks中的varchar类型是字节,使用UTF-8编码,汉字占三个字节,英文占一个;mysql中的varchar是字符。

了解了,再次感谢 :grinning:。有个建议是这个log的错误日志提示 too many filtered rows,让人很容易误以为是写入的数据量太大了,又加上k8s管理员在管理看不了error_url

因为导入存在不合规数据会进行过滤的机制,有一个允许的错误率,当很多的超长数据即错误数据过多时会过滤很多,会显示 too many filtered rows。出现这个问题您可以优先确认下分隔符,数据质量等因素