タグ

OCRとdigitalに関するmyrmecoleonのブックマーク (4)

  • CA1718 – 動向レビュー:電子化の現場からみたOCRの動向 / denshikA

    電子化の現場からみたOCRの動向 1. はじめに  インターネットを通じて、自宅や職場などから閲覧できるが増えている。あるものは無料で、あるものは有料で閲覧することができる。電子化されたがインターネット上で公開される利点は、いつでも/どこでも読むことができるということだけではない。これまで目当てのを探そうとすると、タイトル、著者名、分類などを頼りに探すしかなかったが、電子化されたは、その中の文章や内容の一部からでも検索可能となる。つまり、インターネット上に電子化されたが公開されると、の探し方/使い方が変わる、と言える。この新しい「の探し方/使い方」を陰で支えているのが「光学式文字読取装置」(Optical Character Reader:OCR)というテクノロジーである。稿では、や新聞の電子化に携わる者(1)の視点で、OCRの動向を紹介する。 2. OCRはどのように使

    CA1718 – 動向レビュー:電子化の現場からみたOCRの動向 / denshikA
    myrmecoleon
    myrmecoleon 2010/06/22
    お。simpleAの人が。っていうか,最近は変名でも普通に記事書けるようになったのカレントアウェアネス。
  • 経験上、OCR変換が80%以上の精度だと、検索でヒットする確率は95-98%の確率となーる - 電子化

    電子化業界では、なぜか、「80%以上の精度」にこだわります。通称「80%ルール」です。 Our experience suggests that should the word accuracy be greater than 80%, then most fuzzy search engines will be able to sufficiently fill in the gaps or find related words such that a high search accuracy (>95-98%) would still be possible from newspaper content because of repeated significant words. http://www.dlib.org/dlib/july09/munoz/07munoz.html とい

    経験上、OCR変換が80%以上の精度だと、検索でヒットする確率は95-98%の確率となーる - 電子化
  • Blog vs. Media 時評 | 国会図書館の蔵書デジタル化、あまりな時代錯誤

    日経新聞の朝刊で「国会図書館、有料ネット配信 400万冊対象、11年にも」を見て、「ブック検索著作権問題、Google期限まで半月 [BM時評] 」で紹介したようにグーグル・ブック検索に押しまくられた国内勢も反転、攻勢に出るのかと思いました。ところが、調べると、とんでもない時代錯誤をしていらっしゃるのです。これは頭が痛い!! 日経の記事には、こうあります。「国立国会図書館は、日文芸家協会、日書籍出版協会と共同で、デジタル化した同図書館の蔵書をインターネットで有料配信するサービスを始める。両協会が著者など権利者に許可を取り、個人がネット上で同図書館の蔵書を読めるようにする」「9月に同図書館と両協会が中心となり協議会を設立する。10年3月までに利用者から著作権料をいくら徴収するかなど詳細を詰めたうえで、11年春には利用者から集めた著作権料を作家などに分配する社団法人か財団法人を発足さ

    myrmecoleon
    myrmecoleon 2009/08/07
    デジタル化を先にやろうが一緒にやろうが,OCRの手間はさほど変わらないのだが。Googleでさえ日本語のOCRはまだまだ不十分。技術出来てからあとで一気にやろうぜ/ボーンデジタルの方はWARPとかでやるのかなと
  • 2007-11-22 - simpleA@hatena[書籍電子化]「アキラメない」連中の系譜

    書籍の電子化について、現状把握をしよーとしてんだけど、今回の切り口は、「OCRのあたり」。 書籍電子化の歴史と、OCR*1の発展の紆余曲折は、姉妹のよーなもの。 OCRの発展の紆余曲折を知ることはとっても大事。 ただ、紆余も曲折もぜーんぶ見ようとすると大変だから、とりあえず「アキラメない」面々に注目しましょ。 出発点:OCRってダメじゃん。使えねぇー。 使えないOCRを前にして、たいていはアキラメる。もーだめだ、書籍電子化なんて、やってられん、ってな感じで。(上図、右の矢印で出て行ってしまう。) ところが、世の中には、なかなかアキラメん連中がいるもので、時に彼らはとんでもないイノベーションをもたらす。*2 使えないOCRを前にして、それでもアキラメなかったのは、次の3派。 1.それでもかけっぱ派 (左派) 2.タグでいいじゃん派 (中道) 3.なんとしても修正じゃい派 (右派) 第1の「そ

    2007-11-22 - simpleA@hatena[書籍電子化]「アキラメない」連中の系譜
  • 1