イントロ OCRとは,Optical Character Recognition の略.「光学文字認識」と訳されている.スキャナで読み取るデータは,基本的に画像イメージなので, たとえオプション機能でPDF に変換してくれるソフト付きのスキャナであっても,データとしては, 画像イメージのPDF化でしかないことがある. 最近では,このようなソフトウエアにOCR 機能を持たせているものもあり, 画像イメージから文字認識をして, 文字コードに変換してくれる.こうすれば,文字から成る文書として, 全文検索の対象になる. 元来,文字認識は,パターン認識(Pattern Recognition)の一種で, コンピュータ処理としては,かなり高度なものに属する. 以前は,Omnipageとか, Recognita のような優秀だが非常に高価なソフトウエアと高分解能スキャナが前提とされていた. しかし,近年