令和3年度、国立国会図書館(以下、「当館」といいます。)は、令和2年度補正予算(第3号)により、提供するほぼ全てのデジタル化資料約247万点のOCRによるテキスト化事業(以下、「OCRテキスト化事業」といいます。)をLINE株式会社に委託して実施しました。 1. OCRテキスト化事業の目的 当館の提供するデジタル化資料のほとんどはテキストデータを持たない画像データです。 昨今のOCR(光学的文字認識)処理技術の進展により、画像データからテキストデータを作成し、本文検索サービスとして提供することが可能となってきました。当館の提供する全てのデジタル化資料をOCR処理によってテキスト化し、デジタル化資料の中身に対する検索サービスを広く提供することは急務です。 しかし、当館のデジタル化資料は昭和前期以前に受け入れた資料が半分近くを占めており、既存のOCRサービス・OCRソフトウェアを用いた場合、レ