Nutch では Jakarta POI を用いたパーザが標準で用意されているため、簡単な設定だけでクロール中に発見された Excel、Word、PowerPoint、PDFのファイル中から文章を抽出してインデキシングできるようになります。 日本語の文章も抽出できるので、Solrに取り込むことで日本語での検索もできるようになります。 設定は以下の2つです。 plugin のインクルード conf/nutch-site.xmlを編集 urlfilter の修正 conf/crawl-urlfilter.txtを編集 plugin のインクルード conf/nutch-site.xmlを編集してExcel、Word、PowerPoint、PDFのパーザプラグインを追加します。 nutch-site.xmlはインストール時はファイルはあるものの中身は空っぽ同然なので デフォルトのままの場合は、n

