用户去重标签表适合哪种数据模型?

【详述】用户去重标签表适合哪种数据模型?
【背景】我司有个标签日志,实时打入kafka里,大概20M/S。
我想根据用户id,做一个标签表,需要实时去重。
一天大概5000万的用户id更新,日志量一天有1亿左右。
这种用户id、标签表,我适合用主键模型还是更新模型?

后面任务调度,还会再挂一个bitmap表,用来根据标签,圈选人群包,会用的是聚合模型

【业务影响】
【StarRocks版本】2.3
【集群规模】3fe(1 follower+2observer)+4be(fe与be混部)
【机器信息】fe 16cpu/32G内存 be 40cpu/176G内存 存储够用
【联系方式】dyuan_vip@126.com

这种数据量,实时去重。一般是主键还是更新合适呢

对表的查询速度又要求么?内存足够可以使用主键模型+分区

表查询速度没有要求,内存够用。
但是没有按天查询一个用户的需求,分区的话,一个用户每天有多条日志,是不是也分散到不同的分区里面?
那查询一个用户的数据,也相当于遍历所有分区的数据了?
什么时候考虑更新模型呢?

如果内存够用就是用主键模型,如果经常按照id进行检索,可以将用户id设置为key列,加速查询

相较于更新模型,主键模型会占用更多内存,查询性能更好,支持更多功能。可以使用后者建议使用后者