タグ

ブックマーク / www.clear-code.com (2)

  • PDFやオフィス文書からテキストを抜き出すツールをテスト公開 - ChupaText 0.5.0 - 2010-11-08 - ククログ

    全文検索エンジンgroongaを囲む夕べ #1 : ATNDの定員が50人から120人に増えましたね。たぶん、何人かはキャンセルするはずなので、今のうちに登録しておくとおそらく参加できるでしょう。興味のある方はお早めに登録してください。 さて、以前、サーバ上でPDFやオフィス文書からテキストを抜き出す方法を紹介しました。これらを使うことにより様々なフォーマットの文書からテキストを抽出し、groongaなどの全文検索エンジンを利用して高速に目的の文書を見つけることができます。例えば、ファイルサーバやデスクトップ上にある文書を検索する用途にも有用です。 しかし、文書のフォーマット毎に抽出方法を変えなければいけないため、実際にテキストを抽出する部分(インデクサーの機能の一部)を作る場合に不便です。文書のフォーマットに依らず、同じ方法でテキストを抽出できると便利ですよね。 ということで、文書のフォ

    PDFやオフィス文書からテキストを抜き出すツールをテスト公開 - ChupaText 0.5.0 - 2010-11-08 - ククログ
  • hbstudy#15発表資料: milter managerで簡単迷惑メール対策 - 2010-09-20 - ククログ

    hbstudy#15でmilterについて発表しました。 公開しているスライドの内容は実際に使ったものと異なっています1。実際に使ったものや当日の雰囲気などが気になる人はUstreamの録画を観てください。 スライドのPDFやソース、当日使ったmilterなどはスライドページからダウンロードできます。milterはスライドのソースと同じアーカイブに含まれています。 スライドはRabbitというRubyで書かれたフリーソフトウェアで作成しています。Ruby界隈ではとても有名なプレゼンツールなのですが、インフラ界隈ではあまり有名ではないので、当日使ったRabbitの機能を簡単に説明しておきます。 スライドの下にでていたうさぎとかめは、うさぎがページ数を、かめが経過時間を示しています。うさぎが前を走っていればペースが速い、かめが前を走っていれば間に合わない、というようにプレゼンテーションの進み具

    hbstudy#15発表資料: milter managerで簡単迷惑メール対策 - 2010-09-20 - ククログ
    hogem
    hogem 2010/09/21
  • 1