凸版印刷は25日、光学文字認識(OCR)を応用し、江戸期以前のくずし字で記されている歴史的資料に誰でも容易にアクセスできるWebビューア「ふみのは」を開発したことを発表した。同ビューアを使った公開用データ制作サービスの提供を、今年5月から開始予定。 このたび開発された「ふみのは」は、江戸期以前のくずし字(ひらがな、カタカナ、漢字を崩して書いた手書き文字)で記されている古典籍の文字をOCRで判別して、テキストデータに変換するビューア。一般的なWebブラウザを使って、歴史的資料の原本画像の上に翻刻(古典籍などの古い文献を現代の活字等を使って一般に読める形式にすること)や多言語翻訳文を重ねてHTML形式で表示するため、Webブラウザさえあればどこでも表示できる。 従来の原本画像と翻刻文の画像を重ねて表示する方法とは異なり、翻刻文をテキストとして扱えるため、全文検索やインターネット上の横断検索など
![凸版印刷、くずし字で書かれた資料をOCRでテキスト化するビューアを開発](https://cdn-ak-scissors.b.st-hatena.com/image/square/be10cd200613576c120f408ee2575158636bbdeb/height=288;version=1;width=512/https%3A%2F%2Fnews.mynavi.jp%2Ftechplus%2Farticle%2F20170425-a278%2Findex_images%2Findex.jpg)