表題の通り、潜在ディリクレ配分法(LDA; Latent Dirichlet Allocation)によるトピックモデルを学習させて、WordCloud・pyLDAvisで可視化までやってみます。 データセットの用意 今回は日本語でやってみたかったので、以下のlivedoorニュースコーパスを利用させていただきました。 - https://www.rondhuit.com/download.html 日本語のコーパスとしては定番ですね。 ダウンロードしてきた圧縮ファイルを解凍して、各ドキュメントのパスを読み込んでおきます。 import glob import numpy as np import pandas as pd from tqdm import tqdm np.random.seed(0) text_paths = glob.glob('livedoor-news-corpus