piro_sukeのブックマーク - はてなブックマーク

piro_suke id:piro_suke

ブックマーク / tasukuchan.hatenablog.com (1)

SennaによるN-gramインデックスで注意すべき挙動 - グニャラくんのグニャグニャ備忘録@はてな
追記:以下の文書について現在リリースされているSenna 1.0.7では、 N-gramで１文字の日本語を検索する場合は直接部分一致検索を動作させるようにしました。というわけで、以下で説明している挙動は今現在当てはまりません。１文字の単語について uchiuchiyamaさんのブログにあった、Sennaのクエリ書式に対する質問 http://d.hatena.ne.jp/uchiuchiyama/20070317/senna_query_probl em この問題ですが、おそらくN-gramでインデックスを作成している場合に起こっていると考えられます。 SennaのN-gramインデックスはbi-gram、すなわち２文字を１つのトークンとみなし、インデックスへの登録を行っています。ということは、文書の末尾を除いて、すべてのトークンは２文字となり、１文字のトークンで検索をし
piro_suke 2012/11/09
ludia

senna
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx