关于从业务log持续导入的问题

U_1704534818495_7797 · 2024年01月6日 10:04

为了更快的定位您的问题，请提供以下信息，谢谢
【详述】
我的场景是从应用产生的日志持续不断的导入StarRocks中，应用产生日志文件，flume采集到kafka中，然后StarRocks通过routine load 方式放入数据库，现在的情况是经过几天采集后，routine load出现一个错误：

2024-01-06 17:42:14: Failed to load data into tablet 10532, because of too many versions, current/limit: 1001/1000. You can reduce the loading job concurrency, or increase loading data batch size. If you are loading data with Routine Load, you can increase FE configs routine_load_task_consume_second and max_routine_load_batch_size,: be:172.31.3.177

看起来是batch size 过小，但是如果我修改了这两个参数，经年累月，可能还是会超出限制，现在我这种持续不间断导入的方案是否可行，以前我本来想通过编写代码insert持续导入，但我看文档中说使用insert 方案不建议使用，说会产生过多的批次，经过实践这个routine load ,看起来也会产生同样的问题，如果这个方案不行，那应该采用什么方式持续不间断的导入数据。

yuchen1019 · 2024年01月8日 12:07

合理的解决方案是增加单次导入的数据量少起一些导入任务就可以您那边导入任务是不断新增的吗？当前集群中大概有多少个routine load任务了？

U_1704534818495_7797 · 2024年01月8日 14:19

我想要在日志实时产生的同时，实时导入flume->kafka->starrocks, 是一个持续不间断的过程，咱们有没有这种方案，还是说咱们不能或不要这样持续不间断的导入

YoYoung · 2024年09月19日 06:20

这个你最后是如何解决的，我现在也遇到这样的问题，流程跟你说的一样想实现实时数据同步功能，发现一直报这个错误

verynice · 2024年11月26日 01:52

你好，我也遇到了一样的问题，请问是怎么解决的呢？