MediaWikiにはダンプ取得のページがあり、例えばWikipediaではWikipedia:データベースダウンロードページから全データダンプをXMLファイル(の圧縮ファイル)形式で提供しています。 何らかの研究目的などで、Wikipediaのコンテンツを処理をしたいと思えば、クロールするのではなくこれを利用することが推奨されています(現実問題としても、そうしないと現実的な時間でデータ取得が終わらないでしょう)。しかし、たとえば全テキストが含まれたjawiki-latest-pages-meta-history.xmlなどは、展開後のサイズで200GBを超え、ちょっと中身を確認するにも、XMLとしてオンメモリで解析するにも、大きすぎるデータです。 MediaWiki::DumpFile::Splitは、このダンプファイルをリビジョンごとのダンプファイルに分割し、指定ディレクトリ以下に下記