Nutch は Apache プロジェクトで開発されているクローラ(crawler)です。クローラは、起点として指定されたURLからリンクをたどりながらHTMLをデータベース化するソフトウェアです。 Google や Yahoo! 等の検索ポータルが内部で使用していることで知られています。スパイダー(Spider)、ボット(bot)等といわれることもあります。 Nutch は 2009/3/23 についにバージョン 1.0 がリリースされました。 Nutch のインストールには JAVA 及び Tomcat が必要です。まだインストールしていない場合には先にインストールしておきます。しばらくアップデートしていない場合にアップデートしておいた方がよいでしょう。 以下を参考にしてください。 Linux で root 権限なしでも最新の JDK をインストールする1つのやりかた Linux で