タグ

2013年5月22日のブックマーク (2件)

  • 電子化した本に最適!Adobe Acrobat の PDF 圧縮が予想外に便利すぎて鼻血が出たwww - おいちゃんと呼ばれています

    まずは下の表を見てください。 Perlベストプラクティス 作者: Damian Conway,クイープ出版社/メーカー: オライリー・ジャパン発売日: 2006/08/24メディア: 大型購入: 11人 クリック: 153回この商品を含むブログ (155件) を見る |版 / ページ数|B5版 / 513ページ| |スキャン|白黒 600dpi /(表紙のみ)カラー 300dpi| |圧縮前のサイズ|89.2MB| |圧縮後のサイズ|28.1MB| これは前回のエントリー「ScanSnap S1500 の「OCR テキスト認識」に関する 15 の真実」で調査対象にしたPDF)を、Adobe Acrobat 9(Pro / Standard)を使って圧縮した結果です。*1 前回のエントリーでは、 ScanSnap でスキャンした後に Adobe Acrobat で OCR テキスト認識

    電子化した本に最適!Adobe Acrobat の PDF 圧縮が予想外に便利すぎて鼻血が出たwww - おいちゃんと呼ばれています
  • OCRの精度に挑む! 日本語認識率を漱石の三四郎でチェックした (1/2)

    デジタルガジェットには未検証の事象が多く存在している。それは予算の問題だったり、労力の問題で検証を回避されていることが多い。今回はASCII.jp夏休み企画として、そんなデジタルガジェットの謎をいくつか取り上げて紹介しよう。 OCRのテキスト認識率はどのくらい? セミナーでもらった資料や購入した製品に付属しているマニュアルをドキュメントスキャナーで読み込み、デジタルで管理している人は多いことだろう。しかし、基的にスキャンしたデータは画像扱いとなっている。閲覧には問題ないが、キーワード検索などはできない。ファイルが少ないならファイル名やサムネイルで判別できるが、数が多くなってくると見つけるだけでも一苦労。そこで、OCRソフトの出番だ。 OCR(Optical Character Recognition)とは、光学文字認識という意味で、画像データを解析し、文字列に変換することを意味する。スキ

    OCRの精度に挑む! 日本語認識率を漱石の三四郎でチェックした (1/2)