タグ

Javaとcrawlerに関するgoingerのブックマーク (3)

  • Heritrix/Java メモ

    Home Heritrix/Java メモCentOS5.2の利用について  xen/VirtualBox 仮想化サーバー  Nutch/Java Heritrix/Java Tips オープンソースなWEBアーカイーブ・エンジン"Heritrix"とJava利用のための忘備録のページです。 このページではInternet Archiveが開発主導しているHeritrixの開発動向を伺いつつ、実行・開発環境の整備と評価とカスタマイズ、ドキュメント類のインデックス整備、日語化などについてまとめてみることにする。あくまで個人的、忘備録が目的で、Internet Archiveとは無縁です。 Heritrix Link 基情報/公式サイト

  • Heritrix MOONGIFT

    オープンソース・クローラー Web Archive製のクローラーです。ログ、レポート機能共に充実しています。 オープンソース・クローラー 最近、個人的なプロジェクトでWebクローラーが必要になった。自作しても良いが、これはこれで奥が深い世界だ。できればオープンソースに頼っておいた方が、ノウハウを得やすいだろう。 幾つか候補があるが、まずはこれを試してみよう。 今回紹介するオープンソース・ソフトウェアはHeritrix、Web Archiveの開発したクローラーだ。 Web Archiveは知っての通り、Web上に存在する全てのサイトをアーカイブしようというプロジェクトだ。膨大な量のサイトをかなり前に遡って見ることが出来る。 Heritrixはそこで利用されているクローラーで、Javaベースで動作している。専用HTTPサーバを立ち上げれば、ごくごく簡単に設定、実行が可能だ。ログやレポーティン

    Heritrix MOONGIFT
  • Log in with Atlassian account

    We tried to load scripts but something went wrong. Please make sure that your network settings allow you to download scripts from the following domain: https://id-frontend.prod-east.frontend.public.atl-paas.net

  • 1