タグ

ブックマーク / digit.que.ne.jp (3)

  • Perlメモ/モジュールのインストール(CPAN) - Walrus, Digit.

  • Perlモジュール/MediaWiki::DumpFile::Split - Walrus, Digit.

    MediaWikiにはダンプ取得のページがあり、例えばWikipediaではWikipedia:データベースダウンロードページから全データダンプをXMLファイル(の圧縮ファイル)形式で提供しています。 何らかの研究目的などで、Wikipediaのコンテンツを処理をしたいと思えば、クロールするのではなくこれを利用することが推奨されています(現実問題としても、そうしないと現実的な時間でデータ取得が終わらないでしょう)。しかし、たとえば全テキストが含まれたjawiki-latest-pages-meta-history.xmlなどは、展開後のサイズで200GBを超え、ちょっと中身を確認するにも、XMLとしてオンメモリで解析するにも、大きすぎるデータです。 MediaWiki::DumpFile::Splitは、このダンプファイルをリビジョンごとのダンプファイルに分割し、指定ディレクトリ以下に下記

  • Perlメモ/FileHandleモジュール - Walrus, Digit.

    FILEHANDLE に対応したファイルまたはパイプをクローズします。標準入出力が正常にバッファのフラッシュを行なって、ファイル記述子のクローズしたときにのみ「真」を返します。引数が省略された場合、現在選択されているファイルハンドルをクローズします。 クローズしてすぐにまた、同じファイルハンドルに対してオープンを行なう場合には、open が自動的に close を行ないますので、close FILEHANDLE する必要はありません (open を参照してください)。ただし、明示的にクローズを行なったときにのみ入力ファイルの行番号 ($.) のリセットが行なわれ、open によって行なわれる暗黙の closeでは行なわれません。 ファイルハンドルがパイプつきオープンなら、 close はその他のシステムコールが失敗したりプログラムが非ゼロのステータスで終了した場合にも偽を返します (プログ

  • 1