word2vecの応用として文書分類,ここではニュース分類をやってみました. データはlivedoorニュースコーパスを使いました. あと,wikipediaのデータで学習させたモデルを使いました. http://www.rondhuit.com/download.html#ldcc bag-of-wordsを用いた場合は以下で議論されています. http://qiita.com/yasunori/items/31a23eb259482e4824e2 さて,今回はword2vecを使って文書分類に挑戦してみます. word2vecにより,単語空間は有限次元ベクトル空間で表現されています. 単語のベクトル表現をとし長さ1に正規化されているとします (正規化すると内積がcos類似度になる.特に正規化しなくてもよいと思うが念のため). さらに,文書のベクトル表現をとします. ここで,文書は単語を