scikit-learnでtf-idf 概要 tf-idfを出す用事があったので、scikit-learnで実行してみる。 例として宮沢賢治の作品から8作品ほどを青空文庫より取得し、それぞれの作品に対してtf-idf上位10件のワードを抽出する。 Pythonは3.5を利用。mecab-python3が入っていること。 @CretedDate 2016/08/04 @Versions python3.5, mecab0.996, scikit-learn0.17.1 MeCabで名詞だけ分かち書き 「オツベルと象」「風の又三郎」「銀河鉄道の夜」「グスコーブドリの伝記」「セロ弾きのゴーシュ」「注文の多い料理店」「よだかの星」「シグナルとシグナレス」の8作品を使う。 落としてきたファイルは事前に解凍してUTF-8に変換しておく。下記とかで。 $ find . -name '*.zip' -ex