凸版印刷は、紙の文献や資料を、精度99.99%以上かつ短納期で全文テキストデータ化する「文献・資料の高精度全文テキスト化システム」を開発したと発表。7月下旬より、このシステムを用いたサービスの提供を開始する。 同システムは、凸版印刷の文字・テキスト処理技術と、IBM基礎研究所が開発した共同校正技術を組み合わせて作られたもの。印刷された文献や資料を光学文字認識(OCR)でテキストとして読み取り、そのデータの精度を統計処理などにより補完。さらに、共同校正により確認・修正を行ったのち、最後に目的に応じた文字・テキスト処理、各種フォーマットへの変換処理を行う。 このシステムによって、高品質化と作業時間の短縮を両立させることに加え、ルビや傍点、縦中横、和欧混植、割り注など、従来のOCRが苦手としていた複雑な日本語組版にも対応する。難読文字を効率的に確認・修正するためのサポート機能を強化することで、従