The Apache Tika toolkit detects and extracts metadata and structured text content from various documents. Apache Tikaの初のメジャーリリースとなる「Apache Tika 1.0」が公開された。Apache TikaはJavaで開発されたドキュメント分析およびメタデータ抽出ツールキット。さまざまなドキュメント形式に対応しており、対象データからメタデータの抽出を実施する。Tikaは以前はApache Luceneのサブプロジェクトだったが、現在ではApacheソフトウェアファウンデーション直下のプロジェクトとして扱われている。 Apache Tikaが対応しているドキュメントはHTML、XHTML、OOXML、ODF、Microsoft Office (OLE 2、OOXML)