タグ

ブックマーク / lab.ndl.go.jp (2)

  • 古典籍資料のOCRテキスト化実験(令和4年度~) | NDLラボ

    令和4年度以降、令和3年度OCR処理プログラム研究開発 及び令和4年度NDLOCR追加開発事業で得た知見を生かし、古典籍資料を対象としたOCR処理プログラム(以下、「NDL古典籍OCR」といいます。)の内製開発と、古典籍資料のテキスト化実験を実施しています。 令和5年8月8日にNDL古典籍OCR ver.2を公開しました。読み順整序機能が向上したほか、文字認識性能が改善しています。 令和6年2月7日にNDL古典籍OCR ver.3を公開しました。漢籍資料のレイアウト認識性能が向上しています。 ※資料毎にばらつきがありますが、ver.2をver.1と文字認識性能で比較すると概ね約2%文字認識の正確性が改善しています。評価用に学習対象から除外した みんなで翻刻「翻刻!江戸の医療と養生」プロジェクト(外部サイト)の翻刻テキスト3,028画像分を正解としてver.2のテキスト化品質を評価すると、F

  • OCR処理プログラム及び学習用データセットの公開について | NDLラボ

    2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日語のOCR処理プログラムです。 このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。 機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。 リポジトリ : https://github.com/ndl-lab/

  • 1