PDFBoxで日本語 — ありえるえりあ

テクノロジーカテゴリーの変更を依頼記事元:

dev.ariel-networks.com

16 usersがブックマークコメント

コメント

2

記事へのコメント2件

注目コメント
新着コメント

kimura_m_29 『PDF文書からテキストを取り出す必要があって、Nutchでも使用されていることだし、PDFBoxというJavaのオープンソースを使うことにしました。』

java
PDF

2008/04/29 リンク

asagi29 『PDF文書からテキストを取り出す必要があって、Nutchでも使用されていることだし、PDFBoxというJavaのオープンソースを使うことにしました。』

java
PDF

2008/04/29 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

PDFBoxで日本語 — ありえるえりあ

PDF文書からテキストを取り出す必要があって、Nutchでも使用されていることだし、PDFBoxというJavaのオ... PDF文書からテキストを取り出す必要があって、Nutchでも使用されていることだし、PDFBoxというJavaのオープンソースを使うことにしました。使い方は簡単で、読み取りたい文書のInputStreamやFileオブジェクトを渡してPDDocumentというオブジェクトを作ったら、後はPDF TextStripperというクラスのgetTextというメソッドにPDDocumentを渡すだけです。ところが、やってみると、日本語の文書ではちっともテキストを出してくれません。どうも、日本語のエンコーディングを諦めて何にも処理してくれていない風情でした。そもそもPDFのエンコーディングの決定方法とかも知らなかったのですが、日本語などはフォントに対するCMapというものでエンコーディングが決まるとか(ここら辺りは、PDFLibという商用ライブラリのマニュアルの4.7章で解説されていました。ht

ブックマークしたユーザー

pomu03252012/11/08
cactusman2012/09/28
i_tech2012/01/23
nsyee2010/08/02
redmoonbb2010/05/22
fevnir2009/01/19
kimura_m_292008/04/29
asagi292008/04/29
kazunov2008/02/22
jeremy2007/10/10

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx