国立国会図書館インターネット資料収集保存事業(WARP)は2002年より、日本国内のウェブサイトを保存しています。更新や削除がされやすいウェブサイトを定期的に収集・保存して未来に伝えます。
ウェブアーカイブでは、収集ロボット(クローラ)と呼ばれる自動プログラムを用いてウェブサイトを収集します。(参考:ウェブアーカイブのしくみ > 3. ウェブを収集するしくみ) しかし、現在WARPで使用している収集ロボットでは一部収集できていないページやファイルがあります。今回はそのような例をご紹介します。 (以下の内容は、2017年11月時点でWARPが採用している収集ロボットの仕様や設定をもとにしたものです。) 別サーバに置かれたファイル WARPでは、ウェブサイトの単位(タイトル)ごとに収集の開始ページを登録し、この開始ページからリンクをたどって収集を実施しています(開始ページは複数登録可能です)。このとき、登録した開始ページと同じサーバ上にあるファイル(URLの"○○○.go.jp"の部分が開始ページのURLと共通のもの)のみを収集します。登録していないサーバへのリンクはたどらず、フ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く