TL; DR 日本語文書分類タスクを機械学習で解くとき、下記の文書ベクトル表現手法ごとの精度を比較しました。 Github: https://github.com/nekoumei/Comparison-DocClassification/tree/master/src ※最近のGithub、jupyter notebookのレンダリングがよく失敗するのでnbviewerも貼っておきます https://nbviewer.jupyter.org/github/nekoumei/Comparison-DocClassification/tree/master/src/ Bag of Words TF-IDF Word2Vecの平均値 Doc2Vec SCDV SWEM 結論としては下記の3点です。 問題によるので銀の弾丸はない(あたりまえ) BoW, TF-IDFのような古典的手法も案外悪く