タグ

ブックマーク / medium.com/@kwendomi (2)

  • Elasticsearch ウェブクローラー PDF編

    前回の記事では、Elasticsearch River Webを使用したサイト (HTML) のインデックス、クローリング設定〜検索確認までの基的な手順を紹介しました。今回は、多くのコーポレートサイトに存在する「PDF」をクローリング対象とし検索するための手順をまとめたいと思います。 必要なPluginのインストールMapper Attachments Type for Elasticsearch PDFデータは、Elasticsearch標準のstringなどのフィールドtypeではなく、 ”attachment”というtypeを定義してインデックスします。 また、”attachment”は、PDFだけでなくMicrosoft OfficeやOpen Documentなどのフォーマットもbace64エンコードしてインデックスできます。(詳細はサポートしているドキュメントリストで確認でき

    Elasticsearch ウェブクローラー PDF編
  • Elasticsearch ウェブクローラー 基本編

    Elasticsearch River Web とは通常Elasticsearchは、用意されている様々なAPIを使いデータのインデックスを行います。そのためたとえば、企業サイトのサイト内検索をElasticsearchを使用して実現する場合は、Webサイトの全コンテンツをElasticsearchにインデックス可能なフォーマットにデータ化し、API経由でインデックするという方法が一般的と思われます。もともとDBなどでコンテンツ内容を管理していればその方法でも対応できるかもしれませんが実際対応するとなると結構面倒です。しかし、このRiver Webを使うとWebサイトをクローリングできるため、サイトの各ページを検索対象にしたい場合は大変便利です。 今回は、このElasticsearch向けWeb Crawlerプラグイン「elasticsearch-river-web」の基的な使い方につ

    Elasticsearch ウェブクローラー 基本編
  • 1