sang.pl - Suffix Array を用いて N-gram 統計をとるプログラム 2010-06-21-1 [Programming] SUFARY に付属している sang というプログラムの Perl 版「sang.pl」を作りました。 オリジナルCコード(sang.c)に書いてある説明を改変して載せておきます。 使い方は同じです。 sang.pl --- Suffix Array を用いて N-gram 統計をとるプログラム USAGE sang.pl -n NUM -t NUM FILENAME OPTION -n NUM : NUM で n-gram の n を指定する。 -t NUM : threshold: NUM以下の頻度のものは表示しない n-gram には改行は含まれない。 [実行例] % cat test ABCBACABBAACABCABCACABACAB