タグ

2009年10月10日のブックマーク (1件)

  • OCRはどのように間違いを犯すのか? - 電子化

    さて、JPEG2000に関する小難しい話*1が続いていますので、ちょっと休憩です。 日のお題画像 日は、OCRについて、お話します。 (http://denshika.cc/faq/faq4.phpも参照してください。) OCRの技術を簡単に説明しますと、こんな紙面の画像があるとしますと、 http://chroniclingamerica.loc.gov/lccn/sn83030272/1879-07-01/ed-1/seq-1/ 赤丸の記事に該当する部分を抜き出して、 さらに、1行を抜き出して、 さらに、単語を抜き出して、 さらに、文字単位に切り分けます。 ここまで来たら、各文字が、それぞれ何か、ということを計算します。 普通に1文字づつ計算をしていくと、たとえば、  を  と勘違いしたり、  を  と勘違いしたりします。 なので、上の「PIECES」という単語を と勘違いする可能