エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Apache TikaのPDFファイルテキスト抽出で遊んでみる - HHeLiBeXの日記 正道編
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Apache TikaのPDFファイルテキスト抽出で遊んでみる - HHeLiBeXの日記 正道編
今更ながらに「Apache Tika」というものの存在を知る‥PDFとかその他諸々のファイルのメタデータやテキス... 今更ながらに「Apache Tika」というものの存在を知る‥PDFとかその他諸々のファイルのメタデータやテキストを抽出してくれる‥|Apache Tika https://t.co/CsCBY74ekK— HHeLiBeX (@hhelibex) 2017年2月27日 ということで、サイトのParser APIを追いかけてコードを組み立ててみたメモ。 環境は、CentOS 7(VM)上のOpenJDK 1.8.0_111。 PDFファイルからのテキスト抽出 以下のようなPDFファイルを使う。 PDFファイルからのテキスト抽出にはorg.apache.tika.parser.pdf.PDFParserクラスを使う。 最低限のコードは以下のような感じ。 import java.io.*; import java.util.*; import org.apache.tika.exception