前回の記事、gensimによるニュース記事のトピック分類 〜前編〜では、livedoorのニュースコーパスをトピック分類するための前処理とgensimのLDAモデルで扱えるようにするための辞書とコーパス作成の手順について、クラス内の関数という形で説明してきました。 今回の後編では、実際にそのクラスを使ってlivedoorのニュースコーパスに適切な処理を施し、gensimのLDAモデルを使ってトピック分類を行ってみようと思います。 辞書とコーパスの作成 前回説明したユーザー辞書は、/usr/local/lib/mecab/dic内にuserdicというディレクトリを作り、その下にignores.dicとして保存しています。 tt = TextTransform(texts, ignores_path='./data/ignores.txt', userdic='/usr/local/lib/
![gensimによるニュース記事のトピック分類 〜後編〜 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/727e353412f33652bf3b6cfec9a27aa07aea9ecb/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9Z2Vuc2ltJUUzJTgxJUFCJUUzJTgyJTg4JUUzJTgyJThCJUUzJTgzJThCJUUzJTgzJUE1JUUzJTgzJUJDJUUzJTgyJUI5JUU4JUE4JTk4JUU0JUJBJThCJUUzJTgxJUFFJUUzJTgzJTg4JUUzJTgzJTk0JUUzJTgzJTgzJUUzJTgyJUFGJUU1JTg4JTg2JUU5JUExJTlFJUUzJTgwJTgwJUUzJTgwJTlDJUU1JUJFJThDJUU3JUI3JUE4JUUzJTgwJTlDJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmcz0zY2RmZDg4ZDc4ZjMxZWNjZDI0MTc2NjJiNzgyZTY1NA%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBtb3JsZXkmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTQ2MTZmNTdhNTRjYTQ4OWZhMjZhNmNjNTY5ODRjMDFi%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3Dd728c45fa2f66f80ad78fa9f2d2d20a0)