snjxのブックマーク - はてなブックマーク

国立国会図書館インターネット資料収集保存事業 | Web Archiving Project（WARP）
国立国会図書館インターネット資料収集保存事業（WARP）は2002年より、日本国内のウェブサイトを保存しています。更新や削除がされやすいウェブサイトを定期的に収集・保存して未来に伝えます。
snjx 2017/11/02
WEBサービス

NDL

web

資料

ドキュメント

技術

社会
リンク
今月の特集（2017年11月） - 収集ロボット四苦八苦：収集できなかったファイル - ｜国立国会図書館インターネット資料収集保存事業
ウェブアーカイブでは、収集ロボット（クローラ）と呼ばれる自動プログラムを用いてウェブサイトを収集します。（参考：ウェブアーカイブのしくみ > 3. ウェブを収集するしくみ）しかし、現在WARPで使用している収集ロボットでは一部収集できていないページやファイルがあります。今回はそのような例をご紹介します。（以下の内容は、2017年11月時点でWARPが採用している収集ロボットの仕様や設定をもとにしたものです。）別サーバに置かれたファイル WARPでは、ウェブサイトの単位（タイトル）ごとに収集の開始ページを登録し、この開始ページからリンクをたどって収集を実施しています（開始ページは複数登録可能です）。このとき、登録した開始ページと同じサーバ上にあるファイル（URLの"○○○.go.jp"の部分が開始ページのURLと共通のもの）のみを収集します。登録していないサーバへのリンクはたどらず、フ
snjx 2017/11/02
クローラ

web

webサービス

社会

考察

技術

資料

ドキュメント

システム開発
リンク
1

はてなブックマーク

タグ

ブックマーク / warp.da.ndl.go.jp (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / warp.da.ndl.go.jp (2)

国立国会図書館インターネット資料収集保存事業 | Web Archiving Project（WARP）

今月の特集（2017年11月） - 収集ロボット四苦八苦：収集できなかったファイル - ｜国立国会図書館インターネット資料収集保存事業

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス