streamload 导入实时数据非常慢,消费kafka积压,too many vesions按照文档的方式修改配置也解决不了

【详述】通过消费kafka将数据实时写入,使用数据模型为主键模型,因为存在大量更新,使用streamload方式接入数据
【背景】做过哪些操作?
【业务影响】kafka数据量每5分钟大概1500万左右,完全消费不过来,测试后基本上确定官网介绍是在吹牛,你数据的接不进来,你后边还计算个啥,没测试计算性能,但估计也不会很理想。还实时分析呢,你数据实时接不进来,分析个啥呀。还有文档是真差,只有最基本的,导入数据的那几个方式是真low,各种限制,ok,限制就限制吧,你还接不进来。。。无力吐槽
【StarRocks版本】2.2.0
【集群规模】3fe(1 follower+2observer)+7be(fe与be混部)
【机器信息】CPU虚拟核/内存/网卡,48C/256G/万兆

个人理解应该跟您的测试有关,可以更详细的说一下您的测试链路么?我们这面很多用户测试效果甚至比官网的效果还好呢。

通过java程序消费kafka,多线程,目前kafka是36个分区,所以起了36个线程,数据处理逻辑很简单,因为streamload只能提交相同列的一批数据 ,所以就是把相同列的数据放一个list,所有数据放到一个map,最后再遍历map把数据发送到starrocks。
有primay key模型数据部分更新,频繁更新配置优化具体参数文档吗

目前高频导入确实会出现这个问题。解决方案是增大导入的batch,增大导入的interval。建议值在10s-15s之间