tenten0213のブックマーク - はてなブックマーク

Elasticsearch ウェブクローラー PDF編
前回の記事では、Elasticsearch River Webを使用したサイト (HTML) のインデックス、クローリング設定〜検索確認までの基本的な手順を紹介しました。今回は、多くのコーポレートサイトに存在する「PDF」をクローリング対象とし検索するための手順をまとめたいと思います。必要なPluginのインストールMapper Attachments Type for Elasticsearch PDFデータは、Elasticsearch標準のstringなどのフィールドtypeではなく、 ”attachment”というtypeを定義してインデックスします。また、”attachment”は、PDFだけでなくMicrosoft OfficeやOpen Documentなどのフォーマットもbace64エンコードしてインデックスできます。(詳細はサポートしているドキュメントリストで確認でき
tenten0213 2014/05/23
elasticsearch
リンク
Elasticsearch ウェブクローラー基本編
Elasticsearch River Web とは通常Elasticsearchは、用意されている様々なAPIを使いデータのインデックスを行います。そのためたとえば、企業サイトのサイト内検索をElasticsearchを使用して実現する場合は、Webサイトの全コンテンツをElasticsearchにインデックス可能なフォーマットにデータ化し、API経由でインデックするという方法が一般的と思われます。もともとDBなどでコンテンツ内容を管理していればその方法でも対応できるかもしれませんが実際対応するとなると結構面倒です。しかし、このRiver Webを使うとWebサイトをクローリングできるため、サイトの各ページを検索対象にしたい場合は大変便利です。今回は、このElasticsearch向けWeb Crawlerプラグイン「elasticsearch-river-web」の基本的な使い方につ
tenten0213 2014/05/23
elasticsearch

web
リンク
1

はてなブックマーク

タグ

ブックマーク / medium.com/@kwendomi (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / medium.com/@kwendomi (2)

Elasticsearch ウェブクローラー PDF編

Elasticsearch ウェブクローラー 基本編

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

Elasticsearch ウェブクローラー基本編