タグ

hadoopとSolrに関するItisangoのブックマーク (1)

  • オープンソースのクローラツール「Apache Nutch 2.0」登場

    The Apache Nutch PMCは7日(米国時間)、Apache Nutchの最新版「Apache Nutch 2.0」を公開した。Apache Nutchは、Javaで開発されているハイスケラーブルなWeb検索フレームワーク。Apache Solr、Apache Tika、Apache Hadoop、Apache GoraといったApacheプロジェクトで構築されており、Webクローリング機能やリンクグラフデータベース、HTML解析といった機能を備えている。 Apache Nutch 2.0は小規模なクローラから、Hadoopクラスターでデプロイされた大規模なWebクローラまで、様々なユースケースをカバーできるよう設計されているWeb検索ソフトウェア。Apache Nutch 2.0で構築されたWebクローラは、Apache Accumulo、 Apache Avro、Apach

    Itisango
    Itisango 2012/07/12
    "Nutchは、Javaで開発されているハイスケラーブルなWeb検索フレームワーク。Apache Solr、Apache Tika、Apache Hadoop、Apache GoraといったApacheプロジェクトで構築されており、Webクローリング機能やリンクグラフデータベース、"
  • 1