StarRocks的分词现在来看和ES差距较大。
目前SR的分词方案有English、Chinese、none和Standrad四种。
首先这几种分词都不支持特殊字符,例如下划线和横线,这个在业务上挺常用。
English分词和中文分词,测试发现分词逻辑并不太好,业务上standard这种场景较为场景,测试下来发现基本上不敢投入商用。
match不支持or连接。
在百万,千万数量级的数据下,match %keyword%的性能要劣于 like %keyword%, 如果match命中分词,性能会非常好,测试发现很多场景下无法命中。
这个分词配置只能设置这几个参数吗?有没有调优的余地呢。
- 100W
- StarRocks
- match 0.055s - 2.1s
- like 0.098s - 0.381s
- ES
- match 0.129s
- StarRocks
- 300w
- StarRocks
- match 0.095s - 8.271s
- like 0.192s - 1.225s
- ES
- match 0.136s
- StarRocks
- 500W
- StarRocks
- match 0.071s - 10s
- like 0.172s - 1.643s
- ES
- match 0.605s
- StarRocks
- 1000w
- StarRocks
- match 0.08s - 11s
- like 0.076s - 1.316s
- ES
- 0.237s
- StarRocks