nsakataのブックマーク - はてなブックマーク

nsakata id:nsakata

ブックマーク / www.altus5.co.jp (1)

PDF から日本語を含むテキストを抽出する | Altus-Five Labs
PDF から日本語テキストを抽出するための方法をいくつか探し回った。 Java から使えること日本語が読み取れること PDF のバージョンに依存しないこと開発環境が限定されないこと（Linux と Windows の両方で使えること）これらの条件を満たすツール等を探して、２つ試してみた。 PDFBox http://incubator.apache.org/pdfbox/ Apache のプロジェクトなので、これで決まれば一番いいなぁと思いながら、試してみた。残念。ページ下端のページ番号の数字だけ処理されて、日本語が処理されなかった。さらに探すと、「Apache PDFBox と FONTBox を日本語化する」という記事を見つけたので、こちらにあるソースをダウンロードして、JDK1.6でビルドし直して使ってみた。ほとんどの PDF の日本語が正しく処理された。すばらし
nsakata 2011/10/02
pdf

日本語

solr
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx