2023年07月12日 NDLラボ公式GitHubから、OCR処理プログラム「NDLOCR」のver.2を公開しました。 NDLOCRは、国立国会図書館(以下「当館」といいます。)がデジタル化した資料から、全文テキストデータを作成することを目的に開発したものです。 令和4年4月に公開したver.1が全文検索用途を主目的に開発したもの(令和3年度OCR処理プログラム開発事業参照)であるのに対して、ver.2では、視覚障害者等の読み上げ用途にも利用できるよう、機能の追加及び認識性能の改善を行っています。 ver.1からの追加機能として、①出力テキストデータの読み上げ順序の推定機能、②漢字の読み方の付与機能、③読み上げ上不要な要素(柱・ノンブル)の除去機能、④広告領域内の文字の読み取り機能を有しています。 合わせて、当館が今後デジタル化及びテキスト化をする資料の出版年代を考慮し、特に1960年代