タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

NutchとCrawlerに関するkuromoyoのブックマーク (1)

  • オープンソース Web 検索エンジン Apache Nutch の概要 - 木曜不足

    Apache Nutch はオープンソースの Web 検索エンジン。 今年になってバージョン 1.0 が出て、Apache の TLP(トップレベルプロジェクト) になった。現在最新は v1.2。 Apache Nutch http://nutch.apache.org/ 乱暴に言うと、「検索エンジン Lucene +全文検索 Solr + Web クローラー+スコアリング(Page Rank)+分散実行の仕組み」が Nutch。 ちなみに検索インデックスを作成&格納するための mapper / reducer および分散ファイルシステムが Nutch から spin out したのが話題の Hadoop。 の割りには知名度が低い気がするのは、Web 検索エンジンを作りたいという要求が少ないせい?(サイト内全文検索なら Solr でいい) プラグインの組み合わせで virtical sea

    オープンソース Web 検索エンジン Apache Nutch の概要 - 木曜不足
  • 1