テキストエリアにニュースの本文を入れて判定ボタンをクリックすると、「国内」「海外」「IT/経済」「スポーツ」「芸能」のうち、一番近いカテゴリを出力するサイトを作りました。 50000件のニュース記事を学習させて、テストを回したときは93.2%の正答率だったので、そこそこ精度はあるはず。 実装 Facebookが無料で公開している自然言語の機械学習ツールことFasttextを使いました。 facebookresearch/fastText: Library for fast text representation and classification. これはpythonのツールではなくバイナリのコマンドなので、前処理さえしてしまえばPythonのコードを一切書かずに文章のカテゴリ推定ができます。 大まかな手順は以下 某ニュースサイトから記事をせっせとスクレイピング 文章をMecabで名詞だ