はじめに 文書分類をしたくなったが、fasttextによる自動分類が思ったように上手くいかなかった その理由は教師データの件数が少なかったかもしれないと考えた 少ない教師データでも上手くいく自動分類が欲しい 少し調べてみたら、gensim+scikit-learnでも分類できそうなので、そちらも試すことにした 前提 Windows 10 pro バージョン1803 Windows Subsystem for Linux(WSL)版ubuntu バージョン8.04 LTS (Bionic Beaver) Python 3.6.5 :: Anaconda, Inc. gensim==3.5.0 scikit-learn==0.19.1 mecab-python3==0.7 全体の流れ Linuxを用意する pythonを入れる 日本語コーパスを手に入れる 日本語パーサを入れる 分類ライブラリを