トークナイズ機能は、全文検索機能に無くてはならない機能です。 欧米圏であれば、最低限スペース区切りに対応していれば実用的に使えます。 しかし、中国語、日本語、韓国語への対応をする場合には、CJK対応言われる実装が必要です。 汎用的な分かち書き(トークナイズ)方法としては、n-gram方式があり、uni-gramやbi-gram、tri-gramが有名です。 n-gramは汎用ではありますが、機械的に分解するが故に精度があまり高くなく、語彙の部分一致検索でしかありません。 そこで、品詞毎にトークナイズの出来る、MeCabやJumanといった形態素解析エンジンの出番となります。 mroongaでは、groonga-tokenizer-mecabというパッケージを追加することで、形態素解析エンジンのMeCabに対応します。 その他、Bigramの独自拡張にも対応しているようなので、それぞれどのよ
![groonga/mroongaのトークナイザー(tokenizer)の挙動を追ってみる - Y-Ken Studio](https://cdn-ak-scissors.b.st-hatena.com/image/square/f1e38b9367ef24e2e0ee95d87ee8d74c41229845/height=288;version=1;width=512/http%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fy%2Fyoshi-ken%2F20130509%2F20130509231155.png)