タグ

ブックマーク / digit.que.ne.jp (2)

  • Perlモジュール/MediaWiki::DumpFile::Split - Walrus, Digit.

    MediaWikiにはダンプ取得のページがあり、例えばWikipediaではWikipedia:データベースダウンロードページから全データダンプをXMLファイル(の圧縮ファイル)形式で提供しています。 何らかの研究目的などで、Wikipediaのコンテンツを処理をしたいと思えば、クロールするのではなくこれを利用することが推奨されています(現実問題としても、そうしないと現実的な時間でデータ取得が終わらないでしょう)。しかし、たとえば全テキストが含まれたjawiki-latest-pages-meta-history.xmlなどは、展開後のサイズで200GBを超え、ちょっと中身を確認するにも、XMLとしてオンメモリで解析するにも、大きすぎるデータです。 MediaWiki::DumpFile::Splitは、このダンプファイルをリビジョンごとのダンプファイルに分割し、指定ディレクトリ以下に下記

    lamich
    lamich 2009/03/04
    [MediaWiki::DumpFile::Split]
  • Perlメモ-モジュールのインストール(CPAN) - Walrus, Digit.

    いくつか、分かっていることとわかっていないことがあります。 以下に分かっている範囲でのポイントを挙げます。 Timeout for inactivity during Makefile.PL? [0]では0(デフォルト)にする ここでTimeoutを指定してしまうと、完了またはタイムアウトの通知にalarm関数を使います。 alarm関数はActivePerlでは実装されていないため、エラーになります。 makeは、perl -V:makeが返すものを使う makefile.plはperl -V:makeが返すmakeプログラムにあったmakefileを作るようです。 perl -V:makeがnmakeを返す場合、dmakeを使うとエラーが発生します。 これ以外の設定は、実施者の任意で構いません。 私が意識して行った設定は以下のものです。 Select as many URLs as y

    lamich
    lamich 2007/10/19
    [net::smtp]
  • 1