Wikipedia はそのダンプデータを公開しているので、自然言語処理の研究で利用するひとが結構いたりする。 なので、ためしに英語版 Wikipedia のダンプデータのXMLをパースしながら、適当に書式情報を削除して1項目1ファイルにして HyperEstraier の文書ドラフト形式で出力してみた。 日本語版で、抽出に 13 分、インデキシングに 75 分。英語版で、抽出に 60 分、インデキシングに 3 時間というところ。(CPU: Intel Xeon 2.66GHz) #!/usr/bin/env python # -*- coding: utf-8 -*- import sys import os import codecs import re from itertools import izip, count from xml.etree import ElementTree