Wikipediaはデータベース・ダンプを提供している。 Abstractをまとめたjawiki-latest-abstract.xml.gzも配布しているが、このデータは使いものにならない…w そこでjawiki-latest-pages-articles.xml.bz2を使う。 このファイルをbunzip2コマンドで展開するとjawiki-latest-pages-articles.xmlを得る。 なお、展開したファイルのサイズは10GBを超えるため、ストレージの容量に注意する。 次のコードはjawiki-latest-pages-articles.xmlから有効なtitleとabstractを表示する。 #coding: UTF-8 import sys import re # 読み込むファイルの名前を指定する file_name = 'jawiki-latest-pages-art