【全文检索】StarRocks的全文检索是否可以自定义分词或者优化分词?

StarRocks的分词现在来看和ES差距较大。

目前SR的分词方案有English、Chinese、none和Standrad四种。

首先这几种分词都不支持特殊字符,例如下划线和横线,这个在业务上挺常用。

English分词和中文分词,测试发现分词逻辑并不太好,业务上standard这种场景较为场景,测试下来发现基本上不敢投入商用。

match不支持or连接。

在百万,千万数量级的数据下,match %keyword%的性能要劣于 like %keyword%, 如果match命中分词,性能会非常好,测试发现很多场景下无法命中。

这个分词配置只能设置这几个参数吗?有没有调优的余地呢。

  1. 100W
    • StarRocks
      • match 0.055s - 2.1s
      • like 0.098s - 0.381s
    • ES
      • match 0.129s
  2. 300w
    • StarRocks
      • match 0.095s - 8.271s
      • like 0.192s - 1.225s
    • ES
      • match 0.136s
  3. 500W
    • StarRocks
      • match 0.071s - 10s
      • like 0.172s - 1.643s
    • ES
      • match 0.605s
  4. 1000w
    • StarRocks
      • match 0.08s - 11s
      • like 0.076s - 1.316s
    • ES
      • 0.237s