はじめに テキストマイニングの手法、トピックモデルを用いて文書の自動分類に挑戦します。 理論的な部分はこちらの本。 先人の拵えた偉大なパッケージ群を活用させてもらい、Rでの実装部分を中心に書いてみたいと思います。 自分の振り返りためにも、困ったポイント、未解決ポイント含めて書いてるので、かなり回りくどいかもしれませんがご了承ください。 トピックモデルとは テキストマイニングではネット上のブログやニュースなど、多量の文書を取り扱うことが多いですが、トピックモデルを用いることによって、そういった文書を教師なし学習で分類することができます。 ざっくりとしたイメージですが、「文書中に出現する単語の出現確率を推定するモデル」ということ。スポーツなら「サッカー」「野球」「バレーボール」のような単語が出現しやすく、料理なら「レシピ」「献立」「まな板」みたいな単語がきっと多く出てくるのはイメージがわきやす
![[R] トピックモデル(LDA)を用いた大量文書の教師なし分類 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/374fb5ae61adf4489914b58d98a0ff36dd261b62/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JTVCUiU1RCUyMCVFMyU4MyU4OCVFMyU4MyU5NCVFMyU4MyU4MyVFMyU4MiVBRiVFMyU4MyVBMiVFMyU4MyU4NyVFMyU4MyVBQiUyOExEQSUyOSVFMyU4MiU5MiVFNyU5NCVBOCVFMyU4MSU4NCVFMyU4MSU5RiVFNSVBNCVBNyVFOSU4NyU4RiVFNiU5NiU4NyVFNiU5QiVCOCVFMyU4MSVBRSVFNiU5NSU5OSVFNSVCOCVBQiVFMyU4MSVBQSVFMyU4MSU5NyVFNSU4OCU4NiVFOSVBMSU5RSZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnM9ZmIxY2E0YzY0YjZmZTY0MGE5M2MyMjBmZDVkZmYwZDE%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBZTV9EU0tSJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz0zNzMyNGEyYjA3ZGQ2MWYxZGQ2Mjk0YzNhNGNlZTgyMw%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3D66603363531c1321b2125f43f2406939)