タグ

トークナイザに関するni66lingのブックマーク (1)

  • groonga/mroongaのトークナイザー(tokenizer)の挙動を追ってみる - Y-Ken Studio

    トークナイズ機能は、全文検索機能に無くてはならない機能です。 欧米圏であれば、最低限スペース区切りに対応していれば実用的に使えます。 しかし、中国語、日語、韓国語への対応をする場合には、CJK対応言われる実装が必要です。 汎用的な分かち書き(トークナイズ)方法としては、n-gram方式があり、uni-gramやbi-gram、tri-gramが有名です。 n-gramは汎用ではありますが、機械的に分解するが故に精度があまり高くなく、語彙の部分一致検索でしかありません。 そこで、品詞毎にトークナイズの出来る、MeCabやJumanといった形態素解析エンジンの出番となります。 mroongaでは、groonga-tokenizer-mecabというパッケージを追加することで、形態素解析エンジンのMeCabに対応します。 その他、Bigramの独自拡張にも対応しているようなので、それぞれどのよ

    groonga/mroongaのトークナイザー(tokenizer)の挙動を追ってみる - Y-Ken Studio
  • 1