重复主键导入

hkLewis · 2023年04月23日 09:59

【详述】
请问starRock在通过kafka的方式导入数据时，针对重复主键的数据，能设置覆盖或者丢弃的操作吗？类似elasticSearch中 bulk 操作的index和create

例如数据表A，里面有2个字段，id和name,其中id为主键，目前已经有一条数据主键id为1的数据 (1,张三) ，后续收到主键id仍为1的数据，比如 (1,李四)，那可否通过某种方式指定，保存后，留下来的是 (1,张三) 还是 (1，李四) ？

目前看，重复主键的处理方式都是覆盖，没有丢弃，即最后留下来的是 (1,李四)
【背景】
业务场景需要根据数据的优先级去判断，重复数据是覆盖，还是丢弃
【业务影响】
如果不能支持指定，那么针对这种情况，都会先和数据库进行一次 io 操作，获取某个主键的数据是否存在，这样加大了负载压力
【StarRocks版本】 2.2.4
【表模型】例如：主键模型 + 更新模型
【导入或者导出方式】kafka
【联系方式】社区群14-天明

Natsume729 · 2023年04月26日 11:46

是的，目前只支持了upsert和delete，不需要的数据为啥要写入呢？你的这个需求是否可以在数据源阶段过滤掉这部分数据，比如在where条件里定义哪些标记的数据不需要写入？