簡単に手に入るWikipediaデータ Wikipediaの記事は基本的に、ウィキメディア財団によって簡単にダウンロードできるようになっています。 日本語Wikipedia記事のダウンロードページ 気ままにクローラを走らされると困るといった理由もあるみたいですが、利用させてもらう側としては手間が少なくて有り難いですね。 データの一部説明 jawiki-latest-pages-articles.xml.bz2 記事一覧 圧縮された状態で3GB jawiki-latest-abstract.xml.gz タイトル、要約(「~とは...である」と書いてある最初の数行)など一覧 jawiki-latest-all-titles-in-ns0.gz タイトルのみ一覧 (リダイレクトされるタイトルは含まない) jawiki-latest-redirect.sql.gz リダイレクト元の記事IDと、リ