lamichのブックマーク - はてなブックマーク

Perlモジュール/MediaWiki::DumpFile::Split - Walrus, Digit.
MediaWikiにはダンプ取得のページがあり、例えばWikipediaではWikipedia:データベースダウンロードページから全データダンプをXMLファイル（の圧縮ファイル）形式で提供しています。何らかの研究目的などで、Wikipediaのコンテンツを処理をしたいと思えば、クロールするのではなくこれを利用することが推奨されています（現実問題としても、そうしないと現実的な時間でデータ取得が終わらないでしょう）。しかし、たとえば全テキストが含まれたjawiki-latest-pages-meta-history.xmlなどは、展開後のサイズで200GBを超え、ちょっと中身を確認するにも、XMLとしてオンメモリで解析するにも、大きすぎるデータです。 MediaWiki::DumpFile::Splitは、このダンプファイルをリビジョンごとのダンプファイルに分割し、指定ディレクトリ以下に下記
lamich 2009/03/04
[MediaWiki::DumpFile::Split]

perl

module

cpan

wikipedia

xml

wiki
リンク
Perlメモ-モジュールのインストール(CPAN) - Walrus, Digit.
いくつか、分かっていることとわかっていないことがあります。以下に分かっている範囲でのポイントを挙げます。 Timeout for inactivity during Makefile.PL? [0]では0(デフォルト)にするここでTimeoutを指定してしまうと、完了またはタイムアウトの通知にalarm関数を使います。 alarm関数はActivePerlでは実装されていないため、エラーになります。 makeは、perl -V:makeが返すものを使う makefile.plはperl -V:makeが返すmakeプログラムにあったmakefileを作るようです。 perl -V:makeがnmakeを返す場合、dmakeを使うとエラーが発生します。これ以外の設定は、実施者の任意で構いません。私が意識して行った設定は以下のものです。 Select as many URLs as y
lamich 2007/10/19
[net::smtp]

perl

cpan

install
リンク
1

はてなブックマーク

タグ

ブックマーク / digit.que.ne.jp (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / digit.que.ne.jp (2)

Perlモジュール/MediaWiki::DumpFile::Split - Walrus, Digit.

Perlメモ-モジュールのインストール(CPAN) - Walrus, Digit.

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス