Wikipediaの記事データは、自分でクロールせずとも、ダンプデータが用意されているため、それをダウンロードすることで取得することができます。(むしろクロールはしちゃダメ) 英語版のダンプデータ 日本語版のダンプデータ とりあえず全記事の最新の本文データはenwiki-20180701-pages-articles-multistream.xml.bz2(2018年7月1日英語版の場合)というようなファイルに格納されているので、そこから取得できるのですが、このうち、特定のカテゴリ以下の記事のみをすべて取得したいといった場合は、少し工夫が必要です。 この記事では、Web上で公開されている便利なAPI等は使用せずに、ダンプデータのダウンロード以外をローカルで完結させる方法で記します。また、特定のプログラミング言語での実装は記さず、方針のみを記します。 必要なファイル 下記のファイル名は、20