日本語の自然文も、茶筌を使えば単語単位にバラバラに分割できる。しかし、ただそれだけで満足していても仕事のツールにはならないので、今回は、以前紹介したMUSASHIと組み合わせて、簡単なテキスト・マイニングを行ってみよう。例題は、「テキストの中に表れる名詞だけを抽出してその出現回数を数え、多い順に上位20位まで表示するHTMLドキュメントを作成する」としよう。なお、今回のテスト環境にはMac OS Xを使用しているため、文字エンコーディングがUTF-8の環境を前提としていることをあらかじめお断りしておく。 最初に結論。茶筌とMUSASHIがインストールされていれば、以下のようなシェルスクリプトを書くことで今回の例題はクリアできる。 01 #!/bin/bash 02 cat ya44.txt | 03 chasen -i w -F "%m,%H\n" | 04 csv2xt -a 単