kafka写入聚合模型，cdc任务重启后怎样保持数据一致

maker_dong · 2022年02月15日 02:38

【详述】我使用flinkcdc读取MySQL，数据写入kafka，然后另行启动一个flink任务读取kafka数据写入StarRocks的聚合模型，但是CDC任务遇到问题重启后会全量读取MySQL数据，这样会再将数据写入StarRocks一遍，造成聚合表里数据重复，请问这种现象该如何避免呢？或者类似的场景有没有更好的解决方案？
【StarRocks版本】2.0

jingdan · 2022年03月8日 07:57

您好，这种情况需要您这边在source重启后恢复上一次checkponit在state中保存的offset读数据、

另外您为啥不直接使用flink-cdc消费mysql的binlog写入starrocks呢