data cache 需要支持表写入数据时自动写入缓存

data cache 需要支持表写入数据时自动写入缓存

目前在使用starrocks + iceberg 数据湖的方案, 不过遇到了一些问题

  1. 背景
    我们目前仅需要缓存部分重要的表, 其他表的查询不需要缓存.
    我们的iceberg数据也是使用starrocks写入的, 查询也是使用starrocks.
    对于少部分重要的表, 我们会在需要缓存的表的任务的调度下游添加上一个缓存cache select * from dwd 的任务.
    我们这少部分重要的表希望一直在磁盘缓存中, 不希望其他数据再缓存, 把重要数据刷掉
    但是有以下问题:
  2. cache select 消耗资源多, 执行时间过长
  3. 数据重复写入, 已经在starrocks上把数据写入了数据湖了, 还需要再执行cache select * from dwd 写入到starrocks 浪费了任务调度的时间和资源
  4. 仅重要的表需要缓存, 我可以配置部分表自动缓存, 其余表不要缓存 , 否则会导致冷数据被缓存, 热数据反而被刷新掉.

session级别的变量可以满足需求吗,还是说最好是表级别的设置,set enable_populate_datacache =false;

控制非重要表不写入缓存 我们可以使用这个session 变量
但是写入数据时自动缓存这个还是需要表级别的配置

1赞