近年、災害による資料アーカイブの必要性や専門家の減少、資料の経年劣化などを理由に、歴史的資料のデジタル化・テキストデータ化が求められている。しかし、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていた。 今回発表された技術は、江戸期以前のくずし字を自動で判読し、テキストデータ化することを可能にするもの。同社は2013年より、さまざまな書籍をデータ化する「高精度全文テキスト化サービス」を提供しており、同サービスで確立したシステム基盤に、公立はこだて未来大学の寺沢憲吾准教授が開発した「文書画像検索システム」を組み合わせることで、同技術を実現したそうだ。2014年度に実施した原理検証実験では、くずし字の書物を80%以上の精度でOCR処理することに成功した。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く