前回の記事、gensimによるニュース記事のトピック分類 〜前編〜では、livedoorのニュースコーパスをトピック分類するための前処理とgensimのLDAモデルで扱えるようにするための辞書とコーパス作成の手順について、クラス内の関数という形で説明してきました。 今回の後編では、実際にそのクラスを使ってlivedoorのニュースコーパスに適切な処理を施し、gensimのLDAモデルを使ってトピック分類を行ってみようと思います。 辞書とコーパスの作成 前回説明したユーザー辞書は、/usr/local/lib/mecab/dic内にuserdicというディレクトリを作り、その下にignores.dicとして保存しています。 tt = TextTransform(texts, ignores_path='./data/ignores.txt', userdic='/usr/local/lib/

