[B! tika] k-holyのブックマーク

DocSearch | /localhost

k-holy 2018/03/26

Apacheユーザーでtika-appを実行した際に発生するフォントキャッシュのエラー対策。ホームディレクトリ直下に.pdfbox.cacheファイルを作成しておく。

tika

リンク

Apache Tika – Getting Started with Apache Tika

k-holy 2018/03/26

tika

リンク

Tikaを使って指定したディレクトリ以下の全ファイルのメタデータを収集

November 29, 2015 (Last Modified: October 27, 2022) 会社で外部に公開しているPDFファイルの作成者やタイトルにおかしいもの(社名が間違っている etc.)があることに気づき、会社のファイルサーバにあるWord、Excel、PowerPoint、PDFファイルのメタ情報を一覧で出力し、 Excelにインポートして変なメタ情報が設定されていないかチェックするためのスクリプトを作ってみた。準備まずはapacheからTikaをダウンロード(執筆時点では1.11が最新) #!/bin/bash dir=~/Documents/ output=metadata.xml port=12345 tmpfile=temp.txt java -jar tika-app-1.11.jar -s -x --port $port > $tmpfile & p

k-holy 2018/03/26

tika

リンク

ApacheCon 2014 North Americaに参加しました - 株式会社ロンウイット

ApacheConは、さまざまなApacheプロジェクトのカンファレンスです。今回アメリカのデンバーで4/7-4/11に開催されました。Apacheのビッグデータ関連のプロジェクト(Hadoop,HBase,またその関連ソリューションのプロジェクト)、Tomcatプロジェクト、CloudStackのプロジェクト、Apache Traffic ServerなどたくさんのApacheプロジェクトのセッションがあり、私は、Lucene/Solrのセッションを見に行きました。スケジュール:http://events.linuxfoundation.org/events/apachecon-north-america/program/schedule Apacheコミッタだと参加費割引がききますので、私はApache ManifoldCFのコミッタということで参加登録しました。今回Manifold