2014-10-30 Wikipediaデータをxml2sqlを利用しMySQLにぶっこむ Wikipedia NLP Wikipediaコーパスってどう入手するの? Wikipediaのコンテンツデータは、 http://dumps.wikimedia.org/にて公開されています。 (詳しくは、Wikipedia:データベースダウンロード - Wikipediaを参照してください)上記サイトは、英語版のWikipediaデータで、日本語版はhttp://dumps.wikimedia.org/jawiki/においてあります。Wikipediaではクローラを禁止している代わりに、全データがXML形式で公開されています。Wikipediaサイトで入手できるデータはXML形式なため、扱いしやすくするためMySQLに突っ込もうとしたのですが、つまづいたためそのときの備忘録です。 Wikip