LINE株式会社は、国立国会図書館(東京都千代田区)のOCRテキストデータ化プロジェクトに、同社の「CLOVA OCR」が採用されたと発表した。昭和前期以前の資料を中心にした247万点、2億2300万枚を超えるデジタル化資料が2022年3月までにテキストデータ化される。 国立国会図書館では「ビジョン2021-2025 国立国会図書館のデジタルシフト」の一環として、デジタルで全ての国内出版物が読める未来をめざし、デジタル化資料をテキストデータ化する取り組みを進めている。 今回テキストデータ化するデジタル化資料の多くは昭和前期以前の資料で、紙面のレイアウトが複雑だという。そのため、処理に多くの時間かかるうえに、学習機能のない既存のOCRでは読み取り精度が低かった。 CLOVA OCRは文書解析と認識に関する国際会議ICDARで評価された実績を持ち、ルビ・割注・割書きといった特殊な文書や、文字領
![国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ | Ledge.ai](https://cdn-ak-scissors.b.st-hatena.com/image/square/b805888e2cd68c8ffe80534cbdccdb905b47d7fb/height=288;version=1;width=512/https%3A%2F%2Fs3-ap-northeast-1.amazonaws.com%2Fledge-ai-assets%2Fmedia%2Fwp-content%2Fuploads%2F2021%2F07%2F16110642%2Fndl-clovaocr_ec.jpg)