はじめに ハッカソンでマッチングサービスを作ることになったときに「せっかくなら研究で学んだことを生かそう」と考え,文書分類を活用した話題提供システム(笑)みたいなものを作ったのでまとめます. 自然言語処理と機械学習の経験の少ない情弱がノリと勢いで作ったので,アプローチやプログラムが間違えてましたらコメントお願いします. 環境 再現をされる方は以下が動く環境をご用意ください. python3 mecab mecab-python gensim scikit-learn 文書分類器の作成と保存 今回学習に使うのはLivedoor News Corpusです. これは各カテゴリごとにディレクトリがあって,その中に記事データが入っているので使いやすいです. もっとちゃんとしたシステムを作ろうと思うと沢山のカテゴリと記事が必要ですが,簡単化のためにこの記事ではこれだけで学習します. まずは各記事の文