今回はApache ManifoldCFのWebサーバのクロールをご説明します。 ManifoldCFの管理画面から設定を行い、実際にクロールを実行して動作を確認します。 Webサーバ接続によるクロールの特長 ManifoldCFでは、一般的なWebクローラの機能を持っています。HTMLやRSSフィードからリンクを抽出して、HTMLだけでなくリンク先にあるドキュメントをクロールすることができます。そして、そのドキュメントからコンテンツを抽出して、Solrでインデクシングすることができます。 企業内のWebサーバで情報共有している社内ポータルの検索や社内管理文書を検索する、といったケースにManifoldCFを使うことができます。Solrと連携してWebのドキュメントの検索を行います。 準備 「Apache ManifoldCF -セットアップ-」に記載されているセットアップ作業を実施します

