はじめに Pythonを用いて、ニュース記事の分類分けを教師ありの機械学習にかけて、未知の文章がどのニュース記事にあたるのかを予測する。ということをやってみました。 使うものとしては、 Mecab Gensim scikit-learnのSVM これらを利用しました。 また今回やるにあたり、主にMecabとGensimの利用の辺りを以下のサイトを参考(というよりもはやパクリ)に行ったので、まずはそちらの記事を見ていただいたらと思います。 scikit-learnとgensimでニュース記事を分類する gensimのコーパス操作 環境や各種ツールの説明 環境 OS : windows10 python : 3.6.6 ツール - Mecab : 0.996.1 - Gensim : 3.5.0 - scikit-learn : 0.19.1 Mecabの用意 Mecabは、普段pythonで