starrocks向量化引擎执行速率和数据字段建模大小的关联

关于starrocks向量化引擎执行,单个字段大的时候可能会影响执行效率,目前有一种场景想请教:
单个字段太大会影响向量化的问题,是说在建表的时候指定了某个字段过大会影响?还是说我存进去多少才会影响?
例如:同样是varchar,我一个指定varchar(100),一个指定varchar(100000),但是我存进去的数据大小都一样,有影响吗?
目前使用的场景:因为有时候需要列转行,有部分数据可能会大,有部分不大,机器资源有限,字段多,想问下是否有区别,如果没有区别,就尽量建表建大了,业务上一个一个字段去撸太过于费时,望各位大佬解答:pray:

这个建大点不影响查询,但是导入和数据合并的时候会预留一些内存。如果内存够的话一般情况下问题不大

谢谢,能否告知下原理呢

查询和存储跟schema关系不大,你建一个varchar(100)或者是65535 只是限制了一下长度。
实际处理的数据是按照字符串本身的长度进行处理的,读出来多少数据就处理多少数据。

但是在做compaction的时候为了减少内存分配开销可能会一下分配一块大的内存,可能就是一批数据行数*schema里标记的长度,然后合并排序。

1赞