しましょう。 gensim とは、人類が開発したトピックモデリング用のPythonライブラリです。 良記事『LSIやLDAを手軽に試せるGensimを使った自然言語処理入門』のサンプルコードが少々古いので、最新版で改めてやってみる次第。 準備 Index of /jawiki/latest/ から jawiki-latest-pages-articles.xml.bz2 を入手する。下手すると数時間かかる。 コーパス 基本的には英語版Wikipediaからコーパスを作る公式サンプルがそのまま使える。 我々は gensim.corpora.WikiCorpus が内部的に使っている分かち書き用の関数 gensim.corpora.wikicorpus.tokenize を日本語向けに置き換えればよろしい: import gensim.corpora.wikicorpus as wikicor