「(古い資料の)本文検索ができるようになれば、新たな本の価値を届けられる」。国立国会図書館次世代システム開発研究室の徳原直子室長は力を込める。 国立国会図書館(NDL)は2022年4月25日、新たに開発した「NDLOCR」をオープンソースとして公開した。NDLOCRは、書籍や雑誌などの画像データから本文のテキストデータを作成できるOCR(光学的文字認識)処理プログラム。明治~昭和期の独特なレイアウトにも対応しているのが特徴だ。古い資料でも本文検索ができるようになる。 NDLが蔵書のデジタル化に乗り出したのは2000年代に遡る。資料をスキャンし、主に「JPEG 2000」のフォーマットで保存、提供してきた。NDLが手掛けるオンラインサービス「国立国会図書館デジタルコレクション」から利用可能だ。 デジタル化を進める最大の目的は資料の保存にある。時がたつほど紙は劣化していくからだ。 ただし、ND
![明治期の本もテキスト化、国立国会図書館が特注OCRに込めた狙い](https://cdn-ak-scissors.b.st-hatena.com/image/square/19f47ebbe3c1e982b1e0f1db44633937e95fa3fe/height=288;version=1;width=512/https%3A%2F%2Fxtech.nikkei.com%2Fatcl%2Fnxt%2Fcolumn%2F18%2F00001%2F06808%2Fsns.jpg%3F20220512)