Apache Nutch はオープンソースの Web 検索エンジン。 今年になってバージョン 1.0 が出て、Apache の TLP(トップレベルプロジェクト) になった。現在最新は v1.2。 Apache Nutch http://nutch.apache.org/ 乱暴に言うと、「検索エンジン Lucene +全文検索 Solr + Web クローラー+スコアリング(Page Rank)+分散実行の仕組み」が Nutch。 ちなみに検索インデックスを作成&格納するための mapper / reducer および分散ファイルシステムが Nutch から spin out したのが話題の Hadoop。 の割りには知名度が低い気がするのは、Web 検索エンジンを作りたいという要求が少ないせい?(サイト内全文検索なら Solr でいい) プラグインの組み合わせで virtical sea
![オープンソース Web 検索エンジン Apache Nutch の概要 - 木曜不足](https://cdn-ak-scissors.b.st-hatena.com/image/square/45096efc00d33f935041b5d68e3949deae3aa7fb/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fn%2Fn_shuyo%2F20101210%2F20101210154616.png)