タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

javaとpdfに関するpugleeのブックマーク (1)

  • Apache Tika – Apache Tika

    Apache Tika - a content analysis toolkit The Apache Tika™ toolkit detects and extracts metadata and text from over a thousand different file types (such as PPT, XLS, and PDF). All of these file types can be parsed through a single interface, making Tika useful for search engine indexing, content analysis, translation, and much more. You can find the latest release on the download page. Please see

    puglee
    puglee 2017/02/22
    各種ファイルからテキストを抽出可能なツールキット.libreofficeでは上手く処理できなかった PowerPoint や Excel も簡単に処理できる.
  • 1