fnc-1の優勝モデルでは、TF-IDFやword2vecをはじめ、5種類の特徴量が結合されています(さらに、deep learningとのアンサンブルモデルを構築している)。これを参考に、TF-IDFとword2vecを結合したら文書分類の精度が上がるのかを検証します。(ただし、ここではword2vecというより、nnlm-ja-dim128を使います) 事前準備 データはスクレイピングによって取得しましたが、著作権などもあるので、ここでは公開しません。しかし、手順だけ示しておきます: 二値分類モデルとして定義し、カテゴリー1とカテゴリー2を定義する。 カテゴリー1を提供しているニュースサイト数種から記事数千に対するタイトルと本文を抽出。 カテゴリー2を提供しているニュースサイト数種から記事数千に対するタイトルと本文を抽出。 Jupyter notebookで実行 データのロード。 In

