目前数据从kafka中消费,表个数在2000~3000张左右,但是每天的数据接入在3亿条左右。请问需要如何实现?
1、采用rountine load方式,这么多表和任务需要什么样的配置才行?
2、采用stream load方式,目前kafka中一个message中估摸100条数据,如果频繁的写入会不会生成特别多的小文件,compaction开销加剧?
大佬们 有什么好建议么?
目前数据从kafka中消费,表个数在2000~3000张左右,但是每天的数据接入在3亿条左右。请问需要如何实现?
1、采用rountine load方式,这么多表和任务需要什么样的配置才行?
2、采用stream load方式,目前kafka中一个message中估摸100条数据,如果频繁的写入会不会生成特别多的小文件,compaction开销加剧?
大佬们 有什么好建议么?
同问,这个有解决方案了吗?
这个走rountine load方式的话 写的表很多的话(2000~3000)这个肯定起不了那么多rountine load任务 ,如果走 stream load方式那需要进行攒批才行 多攒一点 降低点compaction的开销 就是不知道时效性这块 您能否接受