タグ

N-gramに関するouestのブックマーク (2)

  • sang.pl - Suffix Array を用いて N-gram 統計をとるプログラム

    sang.pl - Suffix Array を用いて N-gram 統計をとるプログラム 2010-06-21-1 [Programming] SUFARY に付属している sang というプログラムの Perl 版「sang.pl」を作りました。 オリジナルCコード(sang.c)に書いてある説明を改変して載せておきます。 使い方は同じです。 sang.pl --- Suffix Array を用いて N-gram 統計をとるプログラム USAGE sang.pl -n NUM -t NUM FILENAME OPTION -n NUM : NUM で n-gram の n を指定する。 -t NUM : threshold: NUM以下の頻度のものは表示しない n-gram には改行は含まれない。 [実行例] % cat test ABCBACABBAACABCABCACABACAB

    sang.pl - Suffix Array を用いて N-gram 統計をとるプログラム
  • SennaによるN-gramインデックスで注意すべき挙動 - グニャラくんのグニャグニャ備忘録@はてな

    追記:以下の文書について 現在リリースされているSenna 1.0.7では、 N-gramで1文字の日語を検索する場合は 直接部分一致検索を動作させるようにしました。 というわけで、以下で説明している挙動は今現在当てはまりません。 1文字の単語について uchiuchiyamaさんのブログにあった、Sennaのクエリ書式に対する質問 http://d.hatena.ne.jp/uchiuchiyama/20070317/senna_query_problem この問題ですが、 おそらくN-gramでインデックスを作成している場合に起こっていると考えられます。 SennaのN-gramインデックスはbi-gram、 すなわち2文字を1つのトークンとみなし、 インデックスへの登録を行っています。 ということは、文書の末尾を除いて、 すべてのトークンは2文字となり、 1文字のトークンで検索をし

    SennaによるN-gramインデックスで注意すべき挙動 - グニャラくんのグニャグニャ備忘録@はてな
  • 1