bucket个数

BE数量 * cpu core / 2 来设置bucket数量或者每个bucket数据小于10G

bucket的数量越多越好吗?还是所有的都表的bucket设 BE数量 * cpu core / 2

bucket的数量不是越多越好,您可以根据系统核数,以及数据量两个因素进行设计分桶数。最优效果一个并行度对应两个分桶数(并行度可以设置为虚拟核数一半),分桶每个bucket大小在100M到1G之间。结合两个因素动态调整

假如我有6台机器,其中一台FE和BE混搭,16核+64G的配置,有一个300G的一个表,那么bucket为
6*16 / 2 = 48 个,
每个bucket大小在100M到1G之间,那么就要设置300个
怎么选择

在不考虑分区的情况下,可以增加分桶数,当前情况您可以设置分为300个桶,这样每个节点300/6=50个桶,一个节点16核,约等于1核处理3个bucket。如果设置分区,假如设置6个分区,每个分区50个桶即可。当然设计分桶时您需要考虑数据倾斜的问题

1赞