ウェブサイトを収集する「単位」が決まると、次に収集する「頻度」(収集間隔)を決める必要があります。その前に収集する「タイミング」について考えてみましょう。 収集するタイミング ウェブサイトを効率的に収集するには、どのようなタイミングで収集するのが理想的でしょうか?答えは、ウェブサイトの更新直後です。なぜなら、一度ウェブサイトを収集した後、更新前に再度収集を行えば、前回収集したウェブサイトと同じ内容(状態)のページを収集することになりますし、逆に更新後しばらく間を置いてから収集を行うと、収集前に再度更新されたり、ページ自体が削除されたりする恐れがあるからです。 ウェブサイトの更新頻度 では、ウェブサイトの更新頻度はどのくらいでしょうか?ウェブコンテンツの平均寿命については、75日や100日など諸説あります。 (参考) Michael Day. Collecting and preservin
インターネット上の情報は更新・改廃がされやすく、ウェブサイト自体が消滅してしまうこともあります。また、近年は公的機関の発行する報告書などの重要な資料が、紙媒体からウェブ版へ移行しています。これらを将来にわたってご利用いただけるよう、国立国会図書館はウェブサイトを定期的に収集・保存しています。 「インターネット資料収集保存事業(WARP)」 *収集したウェブサイトをオリジナルの状態のまま保存しています。 「国立国会図書館デジタルコレクション(電子書籍・電子雑誌)」 *収集したウェブサイトの中から、図書や雑誌などの刊行物に相当するものを取り出して保存しています。 国立国会図書館では、平成14年度より、国内発信のインターネット情報を対象に発信者から個別に許諾を得て、収集・保存・提供を行う「国立国会図書館インターネット情報選択的蓄積事業(WARP)」を実施してきました。 その後、「日本のWebサイ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く