令和4年度以降、令和3年度OCR処理プログラム研究開発 及び令和4年度NDLOCR追加開発事業で得た知見を生かし、古典籍資料を対象としたOCR処理プログラム(以下、「NDL古典籍OCR」といいます。)の内製開発と、古典籍資料のテキスト化実験を実施しています。 令和5年8月8日にNDL古典籍OCR ver.2を公開しました。読み順整序機能が向上したほか、文字認識性能が改善しています。 令和6年2月7日にNDL古典籍OCR ver.3を公開しました。漢籍資料のレイアウト認識性能が向上しています。 ※資料毎にばらつきがありますが、ver.2をver.1と文字認識性能で比較すると概ね約2%文字認識の正確性が改善しています。評価用に学習対象から除外した みんなで翻刻「翻刻!江戸の医療と養生」プロジェクト(外部サイト)の翻刻テキスト3,028画像分を正解としてver.2のテキスト化品質を評価すると、F