Apache Tikaとは Apache Tika Apache TikaはJavaで開発されたドキュメント分析およびメタデータ抽出ツールキット。さまざまなドキュメント形式に対応しており、対象データからメタデータの抽出を実施する。Tikaは以前はApache Luceneのサブプロジェクトだったが、現在ではApacheソフトウェアファウンデーション直下のプロジェクトとして扱われている。 PDFやOffice文書からメタデータを抽出する「Apache Tika 1.0」登場 とりあえず使ってみる 今回は試しに動かしてみたいだけなので Apache Tika - Download より、tika-app-1.4.jarをダウンロード。 動作にはJava 5以上あればよいらしい。 Getting Started with Apache Tikaを参考に動かしてみるよ。 例えばQiitaのトップか