starrocks向量化引擎执行速率和数据字段建模大小的关联

mile_z · 2022年08月1日 02:09

关于starrocks向量化引擎执行，单个字段大的时候可能会影响执行效率，目前有一种场景想请教：
单个字段太大会影响向量化的问题，是说在建表的时候指定了某个字段过大会影响？还是说我存进去多少才会影响？
例如：同样是varchar，我一个指定varchar（100），一个指定varchar（100000），但是我存进去的数据大小都一样，有影响吗？
目前使用的场景：因为有时候需要列转行，有部分数据可能会大，有部分不大，机器资源有限，字段多，想问下是否有区别，如果没有区别，就尽量建表建大了，业务上一个一个字段去撸太过于费时，望各位大佬解答

许秀不许秀 · 2022年08月1日 10:53

这个建大点不影响查询，但是导入和数据合并的时候会预留一些内存。如果内存够的话一般情况下问题不大

mile_z · 2022年08月1日 12:03

谢谢，能否告知下原理呢

许秀不许秀 · 2022年08月1日 12:21

查询和存储跟schema关系不大，你建一个varchar(100)或者是65535 只是限制了一下长度。
实际处理的数据是按照字符串本身的长度进行处理的，读出来多少数据就处理多少数据。

但是在做compaction的时候为了减少内存分配开销可能会一下分配一块大的内存，可能就是一批数据行数*schema里标记的长度，然后合并排序。