streamload 导入实时数据非常慢，消费kafka积压，too many vesions按照文档的方式修改配置也解决不了

U_1659595421487_9408 · 2022年08月9日 02:47

【详述】通过消费kafka将数据实时写入，使用数据模型为主键模型，因为存在大量更新，使用streamload方式接入数据
【背景】做过哪些操作？
【业务影响】kafka数据量每5分钟大概1500万左右，完全消费不过来，测试后基本上确定官网介绍是在吹牛，你数据的接不进来，你后边还计算个啥，没测试计算性能，但估计也不会很理想。还实时分析呢，你数据实时接不进来，分析个啥呀。还有文档是真差，只有最基本的，导入数据的那几个方式是真low，各种限制，ok,限制就限制吧，你还接不进来。。。无力吐槽
【StarRocks版本】2.2.0
【集群规模】3fe（1 follower+2observer）+7be（fe与be混部）
【机器信息】CPU虚拟核/内存/网卡，48C/256G/万兆

shemplle · 2022年08月9日 06:22

个人理解应该跟您的测试有关，可以更详细的说一下您的测试链路么？我们这面很多用户测试效果甚至比官网的效果还好呢。

U_1659595421487_9408 · 2022年08月9日 09:19

通过java程序消费kafka，多线程，目前kafka是36个分区，所以起了36个线程，数据处理逻辑很简单，因为streamload只能提交相同列的一批数据，所以就是把相同列的数据放一个list，所有数据放到一个map,最后再遍历map把数据发送到starrocks。
有primay key模型数据部分更新，频繁更新配置优化具体参数文档吗

shemplle · 2022年08月10日 11:38

目前高频导入确实会出现这个问题。解决方案是增大导入的batch，增大导入的interval。建议值在10s-15s之间