用户去重标签表适合哪种数据模型？

乞丐的生鱼片 · 2023年03月27日 03:12

【详述】用户去重标签表适合哪种数据模型？
【背景】我司有个标签日志，实时打入kafka里，大概20M/S。
我想根据用户id，做一个标签表，需要实时去重。
一天大概5000万的用户id更新，日志量一天有1亿左右。
这种用户id、标签表，我适合用主键模型还是更新模型？

后面任务调度，还会再挂一个bitmap表，用来根据标签，圈选人群包，会用的是聚合模型

【业务影响】
【StarRocks版本】2.3
【集群规模】3fe（1 follower+2observer）+4be（fe与be混部）
【机器信息】fe 16cpu/32G内存 be 40cpu/176G内存存储够用
【联系方式】dyuan_vip@126.com

乞丐的生鱼片 · 2023年03月27日 04:24

这种数据量，实时去重。一般是主键还是更新合适呢

dongquan · 2023年03月27日 06:22

对表的查询速度又要求么？内存足够可以使用主键模型+分区

乞丐的生鱼片 · 2023年03月27日 10:36

表查询速度没有要求，内存够用。
但是没有按天查询一个用户的需求，分区的话，一个用户每天有多条日志，是不是也分散到不同的分区里面？
那查询一个用户的数据，也相当于遍历所有分区的数据了？
什么时候考虑更新模型呢？

dongquan · 2023年03月27日 11:24

如果内存够用就是用主键模型，如果经常按照id进行检索，可以将用户id设置为key列，加速查询

dongquan · 2023年03月27日 11:25

相较于更新模型，主键模型会占用更多内存，查询性能更好，支持更多功能。可以使用后者建议使用后者