タグ

BookとOCRに関するgentoのブックマーク (1)

  • 凸版印刷、江戸以前のくずし字を高精度にOCRする技術を開発

    凸版印刷は7月3日、江戸期以前のくずし字で記されている古典籍の文字を判別し、テキストデータ化するOCR技術を開発したと発表した。 専門家の減少、資料の経年劣化という問題に加え、大規模災害によって失われる可能性もある歴史資料のデジタル化の必要性が高まっている。しかし総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は専門家による判読が必要なためテキストデータ化が遅れていた。 凸版印刷では、古文書を高い精度で出来すとデータ化する「高精度全文テキスト化サービス」を2013年から提供、この技術をベースに公立学校法人公立はこだて未来大学が開発した「文書画像で検索システム」と組み合わせ、くずし字で記されている古典籍のOCR技術を開発した。 技術としては、すでにテキストデータ化済みの文献をくずし字のデータベースとして用いることでくずし字を判読するもの。原理検証実験では、くずし字で記さ

    凸版印刷、江戸以前のくずし字を高精度にOCRする技術を開発
    gento
    gento 2015/07/03
    マジか!? や、え、80%以上の精度って凄すぎるぞ。 これでアレコレ読めるものが増える(かもしれない)のか!? いやもう死んでる場合じゃないわホント。
  • 1