コンピュータ全盛の時代になっても、新聞や雑誌、各種書籍など、紙媒体によって提供される情報は非常に多い。いつでもどこでも手軽に読めるという点で、紙のメリットは大きいが、保存する際の容積や重量、検索性といった点では、やはり電子化された情報の方が上だ。いまさら説明するまでもなく、「OCR」はこうした「紙媒体」と「電子化された情報」の橋渡しをしてくれるソフトのことを指す。ただ、最近のOCRは、いわゆる「Optical Character Reader」の範囲にはとどまっていないし、そうでなければ使い勝手が悪い。どういうことかというと、単に文字を読み取ってそれを文字コードに変換できるだけでは、意味がないのではないかということだ。 私たちが普段利用する印刷物には、文字だけが印刷されているわけではない。写真や挿絵などがふんだんに含まれている。仮にOCRで文字だけが読めたとしても、それら「画像」情報が取り