Nutch は、非常にスケーラブルな Web 構築されて Apache Hadoop と Lucene Java のソフトウェアを検索します。主な特長ほかの Web クローラー、インデクサー、クロール管理ツールは、パーサーは HTML、PDF、ドキュメント、および他のいくつかのドキュメント形式およびドキュメント パーサー、カスタム スコアリング アルゴリズム、コンテンツのカスタム パーサー、プロトコル、および詳細などの追加機能をプラグインすることができます、拡張可能なアーキテクチャ。
![Apache Nutch freecode日本語情報ページ - OSDN](https://cdn-ak-scissors.b.st-hatena.com/image/square/882204600c60d0adc883b3c81bacb9339aa714d2/height=288;version=1;width=512/https%3A%2F%2Fstatic-cdn.osdn.net%2Fdefault-photo.png)
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く