はじめに ニュース記事のBag-of-Words(BoW)から,カテゴリを予測するみたいなことをStacked Denoising Autoencodersでやってみました. データセット データセットはlivedoor ニュースコーパスを使います. 本コーパスは、NHN Japan株式会社が運営する「livedoor ニュース」のうち、下記のクリエイティブ・コモンズライセンスが適用されるニュース記事を収集し、可能な限りHTMLタグを取り除いて作成したものです。 らしいです. トピックニュース Sports Watch ITライフハック 家電チャンネル MOVIE ENTER 独女通信 エスマックス livedoor HOMME Peachy の計9つのカテゴリがあるので,9クラス分類問題になります. データ前処理 まず記事をBoWにする必要がありますが,これにはyasunoriさんのRa
![深層学習でニュース記事を分類する - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/a1951ac35845ded7470e4e7433d514f50ad9e4f2/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9JUU2JUI3JUIxJUU1JUIxJUE0JUU1JUFEJUE2JUU3JUJGJTkyJUUzJTgxJUE3JUUzJTgzJThCJUUzJTgzJUE1JUUzJTgzJUJDJUUzJTgyJUI5JUU4JUE4JTk4JUU0JUJBJThCJUUzJTgyJTkyJUU1JTg4JTg2JUU5JUExJTlFJUUzJTgxJTk5JUUzJTgyJThCJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmdHh0LWNsaXA9ZWxsaXBzaXMmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz04NDEzMTk1MzZhZDAwNzM0MzVkMzg0ZDdjYjUzMzJhMg%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwc2F0b3BpcmthJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz00ZWFlNzNmYTY4MjNlYzdkYjdiMWU0YTliYzkxYTBkOQ%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D2278e235279b80498b394cbc6061799d)