[B! ocr] rizmhateのブックマーク

rizmhate id:rizmhate

ocrに関するrizmhateのブックマーク (4)

GPUなしで動作する軽量なAI OCRツール「NDLOCR-Lite」、国会図書館のラボから無償公開／コマンドライン版に加えWindows/Mac/Linux対応のデスクトップ版を用意
rizmhate 2026/02/25
ツール

AI

ocr
リンク
国立国会図書館のOCRライブラリが凄くよかった件(Windows向け) - Qiita
はじめに日本語OCR, 有料の業務用ソフトには色々と高性能なものがあるんですが、無料の場合の選択肢は意外に限られてます。最近ではGeminiなどにOCRさせることも試みてますが、縦書きに弱いのが欠点。加えて、私がやっているような著作権が切れた戦前の本のデジタル化の場合、認識率の低い旧字体が多いのが悩みの種。そこで最近知ったのが、国立国会図書館が公開しているOCRライブラリ、NDLOCRです。国会図書館のデジタル資料（国立国会図書館デジタルコレクション)から全文テキストデータを作成するために開発されたとのこと。 NDLOCRは、現在ver2.1がGithubに公開されています。古い本が多い国会図書館の資料向けに作られているだけあって、旧字体でも高い精度で認識してくれます。今回は、このライブラリを試してみました。基本、Githubサイトに書いてある通りなんですが、いくつか注意すべき点をメモ
rizmhate 2025/03/27
ライブラリ

windows

docker

OCR
リンク
macOS のデフォルト状態でコマンドラインからOCR処理を行う - TeX Alchemist Online
macOS 12 Monterey では，OSビルトインでのOCR機能が搭載されました。Preview.app で，画像やスキャンPDF（中身がスキャン画像のPDF）に対して，ただマウスでドラッグするだけで，中身の文字を認識して選択し，コピーできるようになっています。さらに，macOS 13 Ventura では，それが日本語にも対応しました。たとえば，（今や入手困難となってしまった）The TeXbook のアスキーによる日本語版をスキャンしたものを Preview.app で開くと，何もしなくても，文字選択できます。これをコピーして他のエディタにペーストすると， TEXの名称で気をつけなければならないことがほかにもある。Eの文字が不揃いになっていることだ。Eの文字を少し下げてあるのは、TeXが組版のためのシステムであることを印象づけるためであり、またほかのシステムの名称と区別するた
rizmhate 2023/06/29
コマンド

コード

pdf

OCR

Mac
リンク
Google Colabを用いたNDLOCRアプリの実行（Google Driveを用いた画像の入力と結果の保存） - デジタルアーカイブシステムの技術ブログ
概要ノートブック実行方法入力フォルダの準備ノートブックの実行：1.初期セットアップノートブックの実行：2.設定ノートブックの実行：3.実行まとめ追記 2022.05.02 2022.04.30 概要前回、Google Cloud PlatformのCompute Engineを用いたNDLOCRアプリの実行方法を共有しました。 nakamura196.hatena blog.com ただし、上記の方法は手続きが一部面倒で、かつ費用がかかる方法です。本番環境で使用するには適した方法ですが、小規模に、または試験的に使用するにはハードルが高い方法でした。この課題に対して、 @blue0620 さんがGoogle Colabを用いたNDLOCRアプリの実行方法を作成されました。 https://twitter.com/blue0620/status/151929433215901
rizmhate 2022/05/01
google

画像

技術

ブログ

OCR
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx