タグ

ブックマーク / tasukuchan.hatenablog.com (1)

  • SennaによるN-gramインデックスで注意すべき挙動 - グニャラくんのグニャグニャ備忘録@はてな

    追記:以下の文書について 現在リリースされているSenna 1.0.7では、 N-gramで1文字の日語を検索する場合は 直接部分一致検索を動作させるようにしました。 というわけで、以下で説明している挙動は今現在当てはまりません。 1文字の単語について uchiuchiyamaさんのブログにあった、Sennaのクエリ書式に対する質問 http://d.hatena.ne.jp/uchiuchiyama/20070317/senna_query_problem この問題ですが、 おそらくN-gramでインデックスを作成している場合に起こっていると考えられます。 SennaのN-gramインデックスはbi-gram、 すなわち2文字を1つのトークンとみなし、 インデックスへの登録を行っています。 ということは、文書の末尾を除いて、 すべてのトークンは2文字となり、 1文字のトークンで検索をし

    SennaによるN-gramインデックスで注意すべき挙動 - グニャラくんのグニャグニャ備忘録@はてな
  • 1