LuceneでPDFBoxを利用する場合のメモ - IkeTの日記

テクノロジーカテゴリーの変更を依頼記事元:

d.hatena.ne.jp/IkeT

2 usersがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

LuceneでPDFBoxを利用する場合のメモ - IkeTの日記

Apache Luceneを利用してPDFファイルのインデクシングを行う場合、PDFBoxを利用するのが一番簡単である... Apache Luceneを利用してPDFファイルのインデクシングを行う場合、PDFBoxを利用するのが一番簡単であるが、最新のLuceneに対応するためにはApache Incubatorで開発されている最新のバージョンを使用する必要がある。もちろんの事ながらMavenのリモートリポジトリは公開されていないため、Subversionからソースを取得し、ローカルリポジトリへインストールしなければならない。他の、PDFライブラリを利用してもよいのだが、単純にコンテンツを抜き出すだけの処理であるため高度な操作は必要ないことや、同じApacheのプロジェクトのため（？）Apache Luceneで利用するためのExtractorが備わっていることなどから、PDFBoxが最適であると判断した。端末の移項に伴い、もう一度セットアップする機会が生まれたので、ここで手順を残しておく。残す手順はMav

ブックマークしたユーザー

kikumoto2009/04/07

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx