data cache 需要支持表写入数据时自动写入缓存
目前在使用starrocks + iceberg 数据湖的方案, 不过遇到了一些问题
- 背景
我们目前仅需要缓存部分重要的表, 其他表的查询不需要缓存.
我们的iceberg数据也是使用starrocks写入的, 查询也是使用starrocks.
对于少部分重要的表, 我们会在需要缓存的表的任务的调度下游添加上一个缓存cache select * from dwd 的任务.
我们这少部分重要的表希望一直在磁盘缓存中, 不希望其他数据再缓存, 把重要数据刷掉
但是有以下问题: - cache select 消耗资源多, 执行时间过长
- 数据重复写入, 已经在starrocks上把数据写入了数据湖了, 还需要再执行cache select * from dwd 写入到starrocks 浪费了任务调度的时间和资源
- 仅重要的表需要缓存, 我可以配置部分表自动缓存, 其余表不要缓存 , 否则会导致冷数据被缓存, 热数据反而被刷新掉.