petite_blueのブックマーク - はてなブックマーク

古典籍資料のOCRテキスト化実験（令和4年度～） | NDLラボ
令和4年度以降、令和3年度OCR処理プログラム研究開発及び令和4年度NDLOCR追加開発事業で得た知見を生かし、古典籍資料を対象としたOCR処理プログラム（以下、「NDL古典籍OCR」といいます。）の内製開発と、古典籍資料のテキスト化実験を実施しています。令和5年8月8日にNDL古典籍OCR ver.2を公開しました。読み順整序機能が向上したほか、文字認識性能が改善しています。令和6年2月7日にNDL古典籍OCR ver.3を公開しました。漢籍資料のレイアウト認識性能が向上しています。 ※資料毎にばらつきがありますが、ver.2をver.1と文字認識性能で比較すると概ね約2%文字認識の正確性が改善しています。評価用に学習対象から除外した　みんなで翻刻「翻刻！江戸の医療と養生」プロジェクト（外部サイト）の翻刻テキスト3,028画像分を正解としてver.2のテキスト化品質を評価すると、F
petite_blue 2023/02/22
ocr

歴史

古典
リンク
OCR処理プログラム及び学習用データセットの公開について | NDLラボ
2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館（以下、「当館」とします。）が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。リポジトリ : https://github.com/ndl-lab/
petite_blue 2022/04/26
OCR

nlp
リンク
1

はてなブックマーク

タグ

ブックマーク / lab.ndl.go.jp (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / lab.ndl.go.jp (2)

古典籍資料のOCRテキスト化実験（令和4年度～） | NDLラボ

OCR処理プログラム及び学習用データセットの公開について | NDLラボ

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス