【全文检索】StarRocks的全文检索是否可以自定义分词或者优化分词？

Pandy · 2025年03月19日 08:40

StarRocks的分词现在来看和ES差距较大。

目前SR的分词方案有English、Chinese、none和Standrad四种。

首先这几种分词都不支持特殊字符，例如下划线和横线，这个在业务上挺常用。

English分词和中文分词，测试发现分词逻辑并不太好，业务上standard这种场景较为场景，测试下来发现基本上不敢投入商用。

match不支持or连接。

在百万，千万数量级的数据下，match %keyword%的性能要劣于 like %keyword%, 如果match命中分词，性能会非常好，测试发现很多场景下无法命中。

这个分词配置只能设置这几个参数吗？有没有调优的余地呢。