Nutch は、非常にスケーラブルな Web 構築されて Apache Hadoop と Lucene Java のソフトウェアを検索します。主な特長ほかの Web クローラー、インデクサー、クロール管理ツールは、パーサーは HTML、PDF、ドキュメント、および他のいくつかのドキュメント形式およびドキュメント パーサー、カスタム スコアリング アルゴリズム、コンテンツのカスタム パーサー、プロトコル、および詳細などの追加機能をプラグインすることができます、拡張可能なアーキテクチャ。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く