タグ

Tikaに関するgt-r-blazeのブックマーク (3)

  • Apache Tika – Apache Tika

    Apache Tika - a content analysis toolkit The Apache Tika™ toolkit detects and extracts metadata and text from over a thousand different file types (such as PPT, XLS, and PDF). All of these file types can be parsed through a single interface, making Tika useful for search engine indexing, content analysis, translation, and much more. You can find the latest release on the download page. Please see

  • チカっとチカTikaっ♡ - Qiita

    ごめんなさい。。。 というわけで、今更ですが、Apache Tika を使ってみました。 Apache Tika 前回は Groonga で全文検索データベースを構築しました。 で、テキストファイルだけなら別に問題ないのですが、世の中には「ワード」とか「エクセル」とか「PDF」とか全文検索したいデータが多くあります。 それぞれのファイル毎に解析するものがあれば、まあそれはそれで助かるのですが、特に「ワード」「エクセル」は xml になる前のタイプの解析ツールがなかなか見つからなくて、少し困っていました。 Google先生に聞いてみたところ、「Apache Tika」というものがある、ということを教えてくれたので、早速使ってみました。 Mac でチカチカ Mac の場合は簡単でした。

    チカっとチカTikaっ♡ - Qiita
  • git diff で Office ファイルの差分を見る - Qiita

    入れたくないとは思っていても、止むに止まれぬ事情で Word, Excel, PowerPoint などのファイルを git レポジトリの中で管理することはありませんか?この記事では、Mac で Office ファイルの diff を取る方法を紹介します。Linux でも多分動くはず。 textconv 普通、バイナリファイルを git diff しても、変更内容がわかりません。ところが、git には textconv という、バイナリファイル(別にバイナリじゃなくてもいいんですが)をコマンドに渡した結果を diff に使う機能があります。ドキュメントには、JPEG の Exif 情報の diff を取る例等が載っています。 Office ファイルからのテキスト抽出 では、Office ファイルからテキストを抽出するにはどうすればいいでしょう?Windows の msysgit には as

    git diff で Office ファイルの差分を見る - Qiita
  • 1