ottonoveのブックマーク - はてなブックマーク

ottonove id:ottonove

ブックマーク / qiita.com/uzresk (1)

SolrCellを使ったドキュメントインデクシング - Qiita
はじめに Solrを使ってPDFなどのドキュメントをインデクシングする要件があるとのことで、手順についてまとめておきます。ドキュメントのインデクシングではApacheTikaを取り込んで実装されたSolrCellを利用しています。 ApacheTikaは節操ないくらい色々なものがパースできます。具体的にはPDFだけではなく、Word、Excel、HTML、画像、動画、圧縮されたファイル、クラスファイルなど色々なものがサポートされています。詳細についてはこちらを読んでみてください。ドキュメントを読み込む前の設定 SolrConfig.xml SolrConfig.xmlでsolr.extraction.ExtractingRequestHandlerが有効になっていることを確認します。 uprefixとは、取得できたフィールド名の中でschema.xmlのフィールド定義にないものの先頭に
ottonove 2016/11/24
スキルアップ

全文検索

情報整理

あとで読む
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx