2015年7月3日、凸版印刷株式会社は、江戸期以前のくずし字で記されている古典籍の文字を判別し、テキストデータ化するOCR技術を開発したと発表しました。この技術は、テキストデータ化済みの文献を、OCR処理に用いるくずし字データベースとして使用することで、テキストデータ化されていない文献を80%以上の精度でテキストデータ化することが可能になったとのことです。 この技術による、くずし字で記された古典籍のテキストデータ化サービスが、2015年夏より試験的に開始される予定とのことです。 凸版印刷、江戸期以前のくずし字を高精度でテキストデータ化する新方式OCR技術を開発 ~江戸期以前のくずし字が80%以上の精度でOCR処理可能に~(凸版印刷、2015/07/03) http://www.toppan.co.jp/news/2015/07/newsrelease150703_2.html 参考: 凸版