[B! OCR] petite_blueのブックマーク

GitHub - clovaai/donut: Official Implementation of OCR-free Document Understanding Transformer (Donut) and Synthetic Document Generator (SynthDoG), ECCV 2022

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

petite_blue 2023/05/29

リンク

Document AI (Intelligent Document Processing) - Microsoft Research

petite_blue 2023/04/27

リンク

GitHub - deepdoctection/deepdoctection: A Repo For Document AI

deepdoctection is a Python library that orchestrates document extraction and document layout analysis tasks using deep learning models. It does not implement models but enables you to build pipelines using highly acknowledged libraries for object detection, OCR and selected NLP tasks and provides an integrated framework for fine-tuning, evaluating and running models. For more specific text process

petite_blue 2023/04/27

OCR
nlp

リンク

古典籍資料のOCRテキスト化実験（令和4年度～） | NDLラボ

令和4年度以降、令和3年度OCR処理プログラム研究開発及び令和4年度NDLOCR追加開発事業で得た知見を生かし、古典籍資料を対象としたOCR処理プログラム（以下、「NDL古典籍OCR」といいます。）の内製開発と、古典籍資料のテキスト化実験を実施しています。令和5年8月8日にNDL古典籍OCR ver.2を公開しました。読み順整序機能が向上したほか、文字認識性能が改善しています。令和6年2月7日にNDL古典籍OCR ver.3を公開しました。漢籍資料のレイアウト認識性能が向上しています。 ※資料毎にばらつきがありますが、ver.2をver.1と文字認識性能で比較すると概ね約2%文字認識の正確性が改善しています。評価用に学習対象から除外した　みんなで翻刻「翻刻！江戸の医療と養生」プロジェクト（外部サイト）の翻刻テキスト3,028画像分を正解としてver.2のテキスト化品質を評価すると、F

petite_blue 2023/02/22

リンク

明治期の本もテキスト化、国立国会図書館が特注OCRに込めた狙い

「（古い資料の）本文検索ができるようになれば、新たな本の価値を届けられる」。国立国会図書館次世代システム開発研究室の徳原直子室長は力を込める。国立国会図書館（NDL）は2022年4月25日、新たに開発した「NDLOCR」をオープンソースとして公開した。NDLOCRは、書籍や雑誌などの画像データから本文のテキストデータを作成できるOCR（光学的文字認識）処理プログラム。明治～昭和期の独特なレイアウトにも対応しているのが特徴だ。古い資料でも本文検索ができるようになる。 NDLが蔵書のデジタル化に乗り出したのは2000年代に遡る。資料をスキャンし、主に「JPEG 2000」のフォーマットで保存、提供してきた。NDLが手掛けるオンラインサービス「国立国会図書館デジタルコレクション」から利用可能だ。デジタル化を進める最大の目的は資料の保存にある。時がたつほど紙は劣化していくからだ。ただし、ND

petite_blue 2022/05/17

OCR

リンク

OCR処理プログラム及び学習用データセットの公開について | NDLラボ

2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館（以下、「当館」とします。）が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。リポジトリ : https://github.com/ndl-lab/

petite_blue 2022/04/26

OCR
nlp

リンク

GitHub - microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

petite_blue 2022/03/12

ドキュメントのレイアウト解析

リンク

TrOCRでファインチューニング - Qiita

from transf ormers import TrOCRProcessor processor = TrOCRProcessor.from_pretrained("microsoft/trocr-small-printed") TrOCRProcessorは、特徴抽出器とトークナイザをラップしただけです。任意の特徴抽出器とトークナイザを使えます。google/vit-base-patch16-224-in21k や cl-tohoku/bert-base-japaneseなど事前学習モデルを選択事前学習モデルが9種類ありますが、すべて10epochsほど試し一番いいので学習させるのがよいかもです。 from transf ormers import VisionEncoderDecoderModel import torch device = torch.device("cuda"

petite_blue 2022/03/12

bert
ocr

リンク

Microsoft OCR（Windows.Media.Ocr）は優秀だよというお話 | BTC RPA

お疲れ様です。渡部です。急に寒くなりましたね。皆様お元気ですか。今日はRPAではなくOCRのお話をしようと思います。 RPAと相性のいいソリューションとしてOCRがあることは皆さんご存知かと思います。実はWindows10には「Microsoft OCR（Windows.Media.Ocr）」というOCR機能があります。 ※実際にはWin8.1からあるようですが、その当時検証したことがなく。。。このMicrosoft OCRですが、非常に優秀なので今回紹介します。今回のサンプルファイルはこちらにします。この画像ファイルをMicrosoftOCRを含む４つのOCRにかけてみて、結果を見比べたいと思います。 OCR結果MicrosoftOCR給与所得の源泉徴収票平成30年分 (受給者番号) (個人番号) (役職名) 住所又は居所払け者受支をる (フリガナ) 名給与所得控除後

petite_blue 2021/06/05

OCR

リンク

GitHub - PaddlePaddle/PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server,

🔥PaddleOCR 算法模型挑战赛火热开启！报名时间1/15-3/31，30万元奖金池！快来一展身手吧😎！ 🔨2023.11 发布 PP-ChatOCRv2: 一个SDK，覆盖20+高频应用场景，支持5种文本图像智能分析能力和部署，包括通用场景关键信息抽取（快递单、营业执照和机动车行驶证等）、复杂文档场景关键信息抽取（解决生僻字、特殊标点、多页pdf、表格等难点问题）、通用OCR、文档场景专用OCR、通用表格识别。针对垂类业务场景，也支持模型训练、微调和Prompt优化。 🔥2023.8.7 发布 PaddleOCR release/2.7 发布PP-OCRv4，提供mobile和server两种模型 PP-OCRv4-mobile：速度可比情况下，中文场景效果相比于PP-OCRv3再提升4.5%，英文场景提升10%，80语种多语言模型平均识别准确率提升8%以上 PP-OCRv

petite_blue 2020/10/08

OCR

リンク

AIによる「超」軽量なOCR（文字認識）システムが登場【GitHub】 | AIDB

光学式文字認識（OCR）システムは、文書の電子化・工場での文字自動検出・オンライン教育・地図作成など幅広く使用されています。中国の巨大テック企業BaiduのYuning Duらは今回新たに、超軽量のOCRシステムである「PP-OCR」を提案しています。

petite_blue 2020/10/08

OCR

リンク

GitHub - JaidedAI/EasyOCR: Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc.

4 September 2023 - Version 1.7.1 Fix several compatibilities 25 May 2023 - Version 1.7.0 Add Apple Silicon support (thanks@rayeesoft and @ArtemBernatskyy, see PR) Fix several compatibilities 15 September 2022 - Version 1.6.2 Add CPU support for DB net DB net will only be compiled when users initialize DB net detector. 1 September 2022 - Version 1.6.1 Fix DB net path bug for Windows Add new built-in mo

petite_blue 2020/07/07

リンク

日本語OCRはなぜ難しい？　NAVERのエンジニアが語る、テキスト検出における課題と解決策

2019年11月20、21日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。1日目は「Engineering」をテーマに、LINEの技術の深堀りを、2日目は「Production」をテーマに、Web開発技術やUI/UX、プロジェクトマネジメントなど、より実践的な内容についてたくさんのプレゼンテーションが行われました。「NAVER ClovaのOCR（光学的文字認識）」に登壇したのはNAVER OCR Team AI ResearcherのHwalsuk Lee氏。深層学習を用いたOCR技術の仕組みについて語りました。講演資料はこちら LINEのOCR技術の仕組み Hwalsuk Lee氏：みなさま、こんにちは。Hwalsuk Leeと申します。NAVER Clova OCR Teamから参りました。今

petite_blue 2020/04/08

リンク

サムネイル画像に対するテキスト認識の性能比較について (Pytesseract / Google Cloud Vision API / Amazon Rekognition) - Gunosyデータ分析ブログ

こんにちは。データ分析部アルバイトの北田 (@shunk031) です。好きな食べ物は畳み込みニューラルネットワークです。はじめに Gunosyでは広告を出稿する際に使用するサムネイル画像や広告画像において、テキストが占める割合の多い画像を把握したいといったニーズがあります。 Facebookの広告ポリシー*1では、広告内のテキストが過剰であるときに配信数が減ってしまったり、まったく配信されなくなる場合があるようです。通常、画像から文字を読み取るOCR技術を利用することで前述のニーズを満たすことができそうです。 OCRを利用するにはPythonから使えるpytesseractや、Google Cloud Vision API、Amazon RekognitionといったクラウドベースのAPIを用いる方法があります。これらpytesseract、Google Cloud Vision

petite_blue 2018/05/09

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

OCRに関するpetite_blueのブックマーク (14)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス