【详述】hive外表 自动增量更新元数据缓存失效
【背景】使用spark-sql往hive分区表中插入数据 sr不可查 但是使用hive-sql插入数据是可查的
【业务影响】
【StarRocks版本】2.3.0
【现象】使用hive-sql插入数据后元数据信息是会发生改变、使用spark-sql插入数据后元数据没有发生改变,但是文件名改变了 hive_meta_table【PARTITION_PARAMS】
您好,sr的hive外表是获取hive的元数据信息缓存在fe下,如果hive那边的元数据没有发生变化的话正常来说sr就是查不到对应的数据信息的。您可以试下2.3版本的新feature:external catalog。https://docs.starrocks.com/zh-cn/main/using_starrocks/Manage_data#示例-2
您好,refresh只是将fe中缓存的hive元数据信息进行更新,我的意思是如果hive那边的元数据信息没有发生变化的话那么sr这边自然读取到的数据也不是新的数据。看您的问题描述是说使用hive-sql插入的数据是可查的(元数据信息发生改变),而使用spark-sql插入的数据不可查(hive中元数据信息没有发生改变)
您对于我们现在使用sparl-sql更新数据的场景有什么建议吗
或者说咱们是通过元数据的那张表来判定元数据是否更新呢
hive_meta_cache_refresh_interval_s hive_meta_cache_ttl_s这两个参数调小对集群性能有什么影响吗
hive_meta_cache_refresh_interval_s hive_meta_cache_ttl_s这两个参数的关系能解答下吗
刚才我试了下将hive_meta_cache_refresh_interval_s该参数调成5s 使用spark-sql插入数据5秒后就可以正常查询了但是并没有过缓存生命周期,为什么就可以查询了呢