はじめに ニュース記事のBag-of-Words(BoW)から,カテゴリを予測するみたいなことをStacked Denoising Autoencodersでやってみました. データセット データセットはlivedoor ニュースコーパスを使います. 本コーパスは、NHN Japan株式会社が運営する「livedoor ニュース」のうち、下記のクリエイティブ・コモンズライセンスが適用されるニュース記事を収集し、可能な限りHTMLタグを取り除いて作成したものです。 らしいです. トピックニュース Sports Watch ITライフハック 家電チャンネル MOVIE ENTER 独女通信 エスマックス livedoor HOMME Peachy の計9つのカテゴリがあるので,9クラス分類問題になります. データ前処理 まず記事をBoWにする必要がありますが,これにはyasunoriさんのRa