前回の記事では、Elasticsearch River Webを使用したサイト (HTML) のインデックス、クローリング設定〜検索確認までの基本的な手順を紹介しました。今回は、多くのコーポレートサイトに存在する「PDF」をクローリング対象とし検索するための手順をまとめたいと思います。 必要なPluginのインストールMapper Attachments Type for Elasticsearch PDFデータは、Elasticsearch標準のstringなどのフィールドtypeではなく、 ”attachment”というtypeを定義してインデックスします。 また、”attachment”は、PDFだけでなくMicrosoft OfficeやOpen Documentなどのフォーマットもbace64エンコードしてインデックスできます。(詳細はサポートしているドキュメントリストで確認でき
![Elasticsearch ウェブクローラー PDF編](https://cdn-ak-scissors.b.st-hatena.com/image/square/8e6409018d6756bd4c33a29e3018f08b08e00957/height=288;version=1;width=512/https%3A%2F%2Fmiro.medium.com%2Fv2%2Fresize%3Afit%3A1200%2F1%2A_dmzeMESiMgxY3dOEjut_g.jpeg)