Sufaryで自分マイニング ブログでよく使う単語を発見する スポンサード リンク 検索プログラムのSufaryはときどきデスクトップで使っている。先日、作者のたつを氏がこんな実験をしていた。 ・[を] 自分マイニング! - Blogでよく使うフレーズは? http://nais.to/~yto/clog/2005-01-18-3.html 自分のブログの記事から特徴的な言葉遣いを抽出するテキストマイニングの実験。 ・SUFARY http://nais.to/~yto/tools/sufary/ Unix用だが、Windowsでもコンパイルできる。 Safaryは検索するだけでなく、文書の索引データをn-gramで高速に作成できる。 n-gramとは言語処理の手法の一つで、nの部分には数字が入る。文章を1文字ずつずらしながらn文字分のパターンを抽出する。 たとえば、「こんにちは」を3-g