咨询StarRocks关于建表和查询的限制，有几万张表，每张表数据从几万到20亿不等

U_1711335950058_2525 · 2024年03月25日 09:10

为了更快的定位您的问题，请提供以下信息，谢谢
【详述】咨询StarRocks关于建表和查询的限制，有几万张表，每张表数据从几万到20亿不等。
【背景】目前有几万张表，每张表数据从几万到20亿不等。如何做集群设计。
【请教问题】

1）SR集群，最大表数量限制是多少？最佳实践推荐的一个集群中表的数量最多是多少？
2）最大表的行数是否有限制？最佳实践推荐一个张表最大可以支持存多少条数据？一张表多少条数据内，可以不影响或较少的影响性能。
3）并发度多少？
并发度是pipeline_dop么？最佳实践中推荐通常为BE节点CPU物理核数的一半，是这样么？

4）SQL访问如果有错误，一般有哪些类型错误？ OOM ? 是否有推荐的重试策略？
FE查询重试最大次数默认2。可以通过参数max_query_retry_time调整。这个max_query_retry_time参数是推荐的重试策略么？

5）SR的去重策略，在业务表中需要某ID不能重复且非空，最佳实践是否是创建SR的主键表 (Primary Key table)，然后设置某ID为主键？

【是否存算分离】
【StarRocks版本】例如：StarRocks version 2.5.8-1.12
【集群规模】例如：3fe（1 follower+2observer）+5be（fe与be混部）
【机器信息】CPU虚拟核/内存/网卡，例如：48C/64G/万兆
【联系方式】社区群20-豆子或者邮箱justice_jl@163.com

dongquan · 2024年03月26日 11:13

1、2 tablet数量可以达到千万级别，tablet越多FE内存需要越大。设计时需要优先考虑分桶的设计，可以设计动态分区的表设计动态分区，建议单分桶数据量100M-1G，表的数据量较大TB级别是一个表的tablet数据量可以设计成几G
3.并行度使用默认的就可以不用调整，使用默认优化
4.常见问题主要查询超时，内存使用达到限制，使用默认值即可，异常查询报错避免影响其他查询
5.这种case建议使用主键模型，开启主键索引落盘
集群配置建议3个follwer

U_1711335950058_2525 · 2024年03月27日 03:23

好的，非常感谢您的解答！
因为我们表的数量很多，怕会因为表的数量过多会影响StarRocks的性能。现在考虑参考之前CK合并表的解决方案，准备使用分桶，将一张SR旧(小)表设定一个桶key，多张表合并到一张新的明细表(大)中。想默认100张表合成一张。这个方案可行么？