The Apache Nutch PMCは7日(米国時間)、Apache Nutchの最新版「Apache Nutch 2.0」を公開した。Apache Nutchは、Javaで開発されているハイスケラーブルなWeb検索フレームワーク。Apache Solr、Apache Tika、Apache Hadoop、Apache GoraといったApacheプロジェクトで構築されており、Webクローリング機能やリンクグラフデータベース、HTML解析といった機能を備えている。 Apache Nutch 2.0は小規模なクローラから、Hadoopクラスターでデプロイされた大規模なWebクローラまで、様々なユースケースをカバーできるよう設計されているWeb検索ソフトウェア。Apache Nutch 2.0で構築されたWebクローラは、Apache Accumulo、 Apache Avro、Apach