授業で,日本語文書を単語に切り分け索引語リストを作りtf-idfを求めよという課題が出たので,Pythonで取り組んでみることにしました.基本的には初心者なので,誤りなどあればご指摘いただければ幸いです. まずは日本語文書を形態素解析するために,オープンソースの形態素解析エンジンMeCabをインストールします.形態素解析とは文を形態素という言語で意味を持つ最小単位に分割し,それぞれの品詞を判別する技術です.自然言語処理の基礎技術でかな漢字変換や機械翻訳などに使われたりします.形態素解析 - Wikipedia.国立国会図書館の前館長である長尾真先生は自然言語処理における第一人者で,形態素解析エンジンには長尾先生の研究室で作成され現在も開発が続けられているJumanというシステムもあります.*1 Try JUMAN MeCabのインストール 公式のページからPythonバインディングも提供さ