昨日触れた TF-IDF を求めるコードを実装します。機械学習については例によって scikit-learn を使います。 このような既知の計算については自力で実装するより完成度の高いライブラリを利用するべきでしょう。これにより車輪の再発明を避ける、品質を担保するという狙いがあります。 事前準備として、ホームディレクトリの docs ディレクトリに処理対象となる自然言語の文書を格納します。 import os import MeCab from sklearn.feature_extraction.text import TfidfVectorizer home = os.path.expanduser('~') target_dir = os.path.join(home, 'docs') token_dict = {} def tokenize(text): """ MeCab で分か
