オープンソース・クローラー Web Archive製のクローラーです。ログ、レポート機能共に充実しています。 オープンソース・クローラー 最近、個人的なプロジェクトでWebクローラーが必要になった。自作しても良いが、これはこれで奥が深い世界だ。できればオープンソースに頼っておいた方が、ノウハウを得やすいだろう。 幾つか候補があるが、まずはこれを試してみよう。 今回紹介するオープンソース・ソフトウェアはHeritrix、Web Archiveの開発したクローラーだ。 Web Archiveは知っての通り、Web上に存在する全てのサイトをアーカイブしようというプロジェクトだ。膨大な量のサイトをかなり前に遡って見ることが出来る。 Heritrixはそこで利用されているクローラーで、Javaベースで動作している。専用HTTPサーバを立ち上げれば、ごくごく簡単に設定、実行が可能だ。ログやレポーティン