これまでに、Apache Solrとcrawler4jでHTMLをクローリングしてインデックスするのと、Apache Tikaを使ってPDFを読んでみるエントリを書いてみました。 Apache Solr 5.x+crawler4jで、Webサイトをクロールしてインデックス化する - CLOVER Apache TikaでPDFを読む - CLOVER 今度は、これらを使ってHTMLとPDFをクローリングしてSolrのインデックスを作ってみたいと思います。 やり方 全体の流れは、以下のようにします。 VMwareのドキュメントサイトの一部(http://info.vmware.com/content/apac_jp_co_techresources)をクローリング HTMLとPDFを対象にする インデックス作成は、いきなりSolrjでドキュメントを追加するのではなく、いったんJSONをファイ