しましょう。 gensim とは、人類が開発したトピックモデリング用のPythonライブラリです。 良記事『LSIやLDAを手軽に試せるGensimを使った自然言語処理入門』のサンプルコードが少々古いので、最新版で改めてやってみる次第。 準備 Index of /jawiki/latest/ から jawiki-latest-pages-articles.xml.bz2 を入手する。下手すると数時間かかる。 コーパス 基本的には英語版Wikipediaからコーパスを作る公式サンプルがそのまま使える。 我々は gensim.corpora.WikiCorpus が内部的に使っている分かち書き用の関数 gensim.corpora.wikicorpus.tokenize を日本語向けに置き換えればよろしい: import gensim.corpora.wikicorpus as wikicor
![gensimでWikipedia日本語版からコーパスを作ってトピックモデリング](https://cdn-ak-scissors.b.st-hatena.com/image/square/541916615021bf6b37ccf8f01d1cbada74bd1f8c/height=288;version=1;width=512/https%3A%2F%2Ftakuti.me%2Fimages%2Fthumbnail.png)