中小企业或者中小项目可否只用StarRocks打爆一切

丁1234 · 2024年08月16日 03:43

【详述】在一家中型企业,所有数据大概几十TB,我负责一个新的项目数据量也不会超过这个范围,我想整个项目可以轻量化, 快速落地,是否能只使用StarRocks满足所有场景
1.使用flinkCDC导入mysql数据
2.使用flink导入kafka埋点数据
3.数据直接存放到StarRocks中,作为ods层
4.利用StarRocks的物化视图构建dwd,dws,ads.
5.用户画像,风控系统等也利用物化视图存储在StarRocks
6.BI工具直接集成StarRocks
其它
1.如果只用物化视图不行的话,可以落物理表,但是这样就需要再加一个调度平台
2.flink可否去掉,埋点数据直接从kafka接入, mysql业务数据,直接用StarRocks构建外表
3.kafka是否可以去掉, 直接使用StarRocks导入文件.
备注:
我相信这些都可以,主要是看数据量,数据量越少, 就越可以轻量级,快速开发,没必要用太多组件.我看了大量的文档,都是数据湖(iceberg或者hudi)+StarRocks做整体构建, 但是我看到StarRocks支持到PB级数据,我相信大多数公司或者大多数项目都没有EB级数据量,可能也就TB级,甚至几百G. 所以想做轻量级的快速开发,看看什么量级的数据适合什么样子的架构

如果我提议的方案在几十T的数据量下可行, 那整个大数据架构就只需要StarRocks,kafka,flink三个组件, 极大的减少的运维成本,和各种平台数据相互导入的成本.

【StarRocks版本】例如：3.1
【集群规模】例如：几十或者几百台物理机
【联系方式】邮箱:y19525460798@163.com

cocytus · 2024年08月16日 06:59

我们也有这种想法，本地客户数据量都不会太大，不知道靠不靠谱，主要担心starrocks的批处理能力