並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 414件

新着順 人気順

OCRの検索結果161 - 200 件 / 414件

  • How to OCR with Tesseract in Python with Pytesseract and OpenCV?

    In this blog post, we will try to explain the technology behind the widely used Tesseract Engine, which was upgraded with the latest knowledge researched in optical character recognition. This article will also serve as a how-to guide/ tutorial on how to implement PDF OCR in python using the Tesseract engine. We will be walking through the following modules: Tesseract OCR FeaturesPreprocessing for

      How to OCR with Tesseract in Python with Pytesseract and OpenCV?
    • GitHub - ttv20/gDriveOCR: OCR by Google Drive API

      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

        GitHub - ttv20/gDriveOCR: OCR by Google Drive API
      • PythonとOCRエンジンで画像から文字を認識する - Qiita

        目的 anacondaの仮想環境内でtesseractとPyOCRを使い、画像から文字を認識できるようにします。 今回は画像の文字を認識し、ターミナルへ出力できるところまでの行います。 こんな感じ↓ 環境 python 3.6 tesseract 4.1.1 PyOCR 0.8 手順 ツールのインストール anacondaの仮想環境に下記2つをインストールします。 ・文字認識のためのOCRエンジンであるTesseract OCRをインストール https://anaconda.org/conda-forge/tesseract

          PythonとOCRエンジンで画像から文字を認識する - Qiita
        • GitHub - Filimoa/open-parse: Improved file parsing for LLM’s

          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

            GitHub - Filimoa/open-parse: Improved file parsing for LLM’s
          • macOS 13 Venturaではプレビューやイメージキャプチャアプリで画像をOCR処理し、PDFにテキストとして埋め込むことが可能に。

            macOS 13 Venturaではプレビューやイメージキャプチャアプリで画像をOCR処理し、PDFにテキストとして埋め込むことが可能になっています。詳細は以下から。 Appleは2021年にリリースしたmacOS 12 MontereyとiOS 15で、機械学習を利用し、オンデバイスで写真内にある文字や文章を検出、編集可能なテキストとしてコピー&ペーストできる「テキスト認識表示 (Live Text)」機能を導入し、

              macOS 13 Venturaではプレビューやイメージキャプチャアプリで画像をOCR処理し、PDFにテキストとして埋め込むことが可能に。
            • GitHub - deepdoctection/deepdoctection: A Repo For Document AI

              deepdoctection is a Python library that orchestrates document extraction and document layout analysis tasks using deep learning models. It does not implement models but enables you to build pipelines using highly acknowledged libraries for object detection, OCR and selected NLP tasks and provides an integrated framework for fine-tuning, evaluating and running models. For more specific text process

                GitHub - deepdoctection/deepdoctection: A Repo For Document AI
              • ML Visionを利用しネットワーク接続なしで画像からテキストの抽出を可能にしたMac用OCRアプリ「Capture&Paste」がリリース。

                ML Visionを利用しネットワーク接続なしに画像からテキストの抽出を可能にしたMac用OCRアプリ「Capture&Paste」がリリースされています。詳細は以下から。 Appleが2019年にリリースしたiOS 13のメモアプリはメモのPinや共有フォルダなどの他に、Appleの機械学習フレームワーク「CoreML」を利用しメモ内にある写真や写真内のテキストを抽出、メタデータにして保存してくれるテキスト/被写体検索機能が採用されていますが、

                  ML Visionを利用しネットワーク接続なしで画像からテキストの抽出を可能にしたMac用OCRアプリ「Capture&Paste」がリリース。
                • Sugoi Manga OCR - Detect all textboxes in 1 click

                  Sugoi Manga OCR V1.5 (Update on 29/May/2021) Download links: (in the About section, click on show more): https://www.patreon.com/mingshiba For questions and stuffs, feel free to join our discord group: https://discord.com/invite/XFbWSjMHJh List of updates so far: + OCR support for Korean and Chinese + Japanese Furigana removal (great for OCR accuracy) + Papago Translation (good for Korean) + C

                    Sugoi Manga OCR - Detect all textboxes in 1 click
                  • Image Scan OCR - k本的に無料ソフト・フリーソフト

                    画像や PDF 内に写っている文字列を、全自動で読み取ってくれる OCR ツール。 OCR したい画像や PDF を選択するだけで、対象ファイル内に写っている文字列をプレーンテキストとして出力することができます。 マウスドラッグで囲んだ領域内のテキストのみを読み取る機能や、ソースファイルを右に 90 度ずつ回転する機能、読み取り結果を TXT ファイルに保存する機能 などが付いています。 「Image Scan OCR」は、手軽に使える OCR ツールです。 指定した画像や PDF 内の文字列をプレーンテキストとして出力してくれる OCR ツールで、基本的に “ ソースファイルを選択するだけ ” で使えるところが最大の特徴。 目的のファイルを選択すると自動で OCR が行われるので、面倒な作業抜きにテキストの抽出を行うことができます。 (一応、マウスドラッグで囲んだ領域内の文字列のみを O

                      Image Scan OCR - k本的に無料ソフト・フリーソフト
                    • 無料オンラインOCR - EzOCR

                      無料オンラインOCR - EzOCR 無料オンラインOCR-EzOCR PDFや画像(JPG、PNG等)の文字認識を行い、簡単にテキスト変換します。 - PDFや画像(JPG、PNG等)の文字認識を行い、簡単にテキスト変換します -

                      • Table TransformerとGPT-4Vを用いたPDF内の表の解析|QunaSys

                        RAGは非常に有用なツールですが、PDFの論文などを扱う際には、表データを正しく読み取れない場合があります。 表の構造を適切に処理することは難しく、いくつかの改善策が提案されています。 例えば、RAGを構築するのに使われるライブラリであるLlamaIndexのドキュメントに以下のような情報があります。 このドキュメントでは表を含むデータを扱う方法として、PDFを一旦すべて画像データに変換し、画像として表の形式を保持したままGPT-4Vでデータを解析することを提案しています。 ただ、PDF1ページ分の画像をそのままGPT-4Vに解析させても精度はあまり良くないようで、後述するTable Transformerを使って表部分の画像のみ抽出してから解析を行うことで、より良い結果が得られたのことでした。 本記事では、この方法を用いてPDF内の表の解析を試してみます。 手順としては 1. PDFの全

                          Table TransformerとGPT-4Vを用いたPDF内の表の解析|QunaSys
                        • GitHub - xavctn/img2table: img2table is a table identification and extraction Python Library for PDF and images, based on OpenCV image processing

                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                            GitHub - xavctn/img2table: img2table is a table identification and extraction Python Library for PDF and images, based on OpenCV image processing
                          • GASでOCRを簡単に使えるんですか!?

                            この記事のひとことまとめ GASでgoogle Driveのフォルダーにアップロードされた画像(PDFもいけます)からgoogle drive APIとDocumentApp ClassをつかってOCRし情報をテキストとしてとりだす方法を紹介します。 これを使うことで、以下のようなことができると思います。 紙のシフト表をスマホでとってDriveにあげてグーグルカレンダーやタイムツリーにシフトを自動登録する レシートを読み込んで品名や金額をスプレッドシートに自動登録する はじめに OCR(光学文字認識)をgoogleのAPIであるGoogle Cloud Vision APIでできることは知っていたんですが、このAPIはGAS(google app script)ではサービスとして提供されていないのでさっとは使えませんでした。 ですが、サービスとして提供されているDrive APIをつかうこ

                              GASでOCRを簡単に使えるんですか!?
                            • 【研究開発部の技術】第3回 名刺に特化した文字認識エンジン「NineOCR」 - Sansan Tech Blog

                              研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 第三弾となる今回は、Sansanの名刺データ化フローの中で使われている弊社が独自開発した名刺に特化した文字認識エンジン「NineOCR」についてご紹介します。 Sansanの名刺データ化フロー NineOCRについては本日プレスリリースが出た通り、データ化範囲が名刺記載の「全項目」 1 となり、いずれの項目でも高い読み取り精度を実現しています。 独自開発の背景 名刺のデータ化では、Emailアドレスや電話番号などを1文字間違えただけでも大問題です。 Sansanでは従来より、オペレーションセンターでの人力処理とコンピュータによる処理をうまく組み合わせて、高精度を維持しつつ、コスト削減やスケーラビリティの両立を実現してきました。

                                【研究開発部の技術】第3回 名刺に特化した文字認識エンジン「NineOCR」 - Sansan Tech Blog
                              • ChatGPTで手書きメモをデジタル化!その実力とは? | ライフハッカー・ジャパン

                                ChatGPTのアップデートで画像認識の性能が格段にアップしました。それに伴い手書きのメモも読み取ってくれるように。 そこで、読み取り機能がどのレベルで使えるか試してみました。 万能ではないが条件付きで使える機能結論から言うと、どんな手書きの文字でも必ずしも読み取れるわけではありません。 まずこれまで記録したノートを見返して、記事の構成メモを撮ってChatGPTに送ってみました。 思いのほか、自分の字が乱雑に書かれていたこともあって、意図していた通りには読み取ってもらえていません。色々試してみましたが、1番精度が高かった画像は以下です。 7割は読み取れている印象です。完全にテキスト化するなら、もう少しはっきり整った字で書く必要がありそうです。 短文なら忠実にテキスト化できそう次に、お客様アンケートやワークショップなどのアンケートの集約で活用できないかどうか試してみました。 実験するために、

                                  ChatGPTで手書きメモをデジタル化!その実力とは? | ライフハッカー・ジャパン
                                • Android の新機能と最新ロゴのご紹介

                                  本日は、 Android 端末の新機能やGoogle アプリのアップデートにより、毎日の外出先でのタスク管理がどのように簡単になるかをご紹介します。 AI があなたをサポートGoogle アシスタントによる新しい スナップショット 機能は、AI 技術を活用し、高精度の天気予報アラートや旅行情報、今後の予定のリマインダーなど、役立つ情報を必要な時にすぐ見れるようホーム画面に表示します。 また、このたび視覚に障がいをお持ちの方を対象とした Android アプリの Lookout が、日本語でもご利用いただけるようになりました。Lookout は、Android 端末のカメラと 最先端の AI 技術を使用して、周囲の物体や画像、テキストを認識し、音声でリアルタイムに伝えてくれるアプリです。 現在のバージョンでは以下の 3 つのモードを、日本語の他、英語、韓国語、中国語を含む合計 34 の言語で

                                    Android の新機能と最新ロゴのご紹介
                                  • 古文書解読とくずし字資料の利活用サービス「ふみのは」| TOPPAN株式会社

                                    くずし字AI-OCRのアシストを受けながら、 古文書や古典籍などの歴史的資料の解読が、 オンラインで可能に。 複数人での共同解読にも対応しています。

                                      古文書解読とくずし字資料の利活用サービス「ふみのは」| TOPPAN株式会社
                                    • 凸版印刷、AI-OCRで古文書を解読するスマホアプリを開発

                                        凸版印刷、AI-OCRで古文書を解読するスマホアプリを開発
                                      • LayoutLMの特徴と事前学習タスクについて - LayerX エンジニアブログ

                                        LayerXで機械学習エンジニアを担当している @yoppiblog です。今回はOCRチームで検証したLayoutLMについて簡単に紹介します。 LayoutLMとは LayoutLMとは昨今注目されているマルチモーダルなDocument Understanding領域の1実装です。 様々な文書(LayerXだとバクラクではお客様の多種多様な請求書といった帳票を扱っています)から情報を抽出(支払金額、支払期日や取引先名など)するために考案されたものになります。 BERT(LayoutLMv3はRoBERTa)ベースのencoder層を用いレイアウト情報や、文書そのものを画像特徴量としてembedding層で扱っているところが既存のモデルより、より文書解析に特化している点です。 v1〜v3まで提唱されており、v3が一番精度が高いモデルです。 もともと、LayoutLMv2では多言語対応され

                                          LayoutLMの特徴と事前学習タスクについて - LayerX エンジニアブログ
                                        • NVIDIA Triton Inference Server の性能検証 - LayerX エンジニアブログ

                                          機械学習エンジニアの吉田です。今回は機械学習モデルの推論サーバとして NVIDIA Triton Inference Server の性能を検証した話です。 (追記) 続編も書きました tech.layerx.co.jp 背景 バクラクでは請求書OCRをはじめとした機械学習モデルを開発していますが、これらの機械学習モデルは基本的にリアルタイムで推論結果を返す必要があります。 請求書OCRを例にとると、お客様が請求書をアップロードした際にその内容を解析し、請求書の金額や日付などを抽出します。 このような推論用のAPIサーバはNginx, Gunicorn/Uvicorn, FastAPIで実装し、PyTorchモデルをGPUで推論する構成となっており、SageMaker Endpointを使ってサービングしています。 バクラクの推論APIはこのような構成でリリース以降特に問題なく稼働してきて

                                            NVIDIA Triton Inference Server の性能検証 - LayerX エンジニアブログ
                                          • PythonでOCRを実行する方法 - ガンマソフト

                                            PyOCRのインストール TesseractをインストールしておけばコマンドからOCRを実行できる状態になりますが、Pythonのライブラリから操作するとさらに使いやすくなります。 ここでは、PyPIで公開されている 「PyOCR」というライブラリを利用します。インストールは以下のようにpipで簡単にインストールできます。 > py -m pip install pyocr # または環境に応じて以下のコマンドを用いる > python -m pip install pyocr > python3 -m pip install pyocr PyOCRをインストールすると画像処理を行える「Pillow」というライブラリも一緒にインストールされます。 OCRを行うサンプル画像 Tesseractの確認テストでは背景がないシンプルな画像を使いましたが、ここでは背景に模様がある画像を用います。OC

                                              PythonでOCRを実行する方法 - ガンマソフト
                                            • 手書きメモをPCにコピペできる機能などがGoogle Lensに実装

                                                手書きメモをPCにコピペできる機能などがGoogle Lensに実装
                                              • 日本語OCRを作ったので解説してみる - Qiita

                                                日本語OCRを作ったので詳しく解説してみる GitHub↓で公開中。 https://github.com/tanreinama/OCR_Japanease 日本語OCRとは 文字通り日本語のOCRです。OCRとは、画像から文字を認識するプログラムです。 前回の記事 https://qiita.com/tanreinama/items/e171449e66d5221afe7e 使用するニューラルネットワーク このOCRプログラムのメインは、基本的にはディープラーニングによって作成されたニューラルネットワークの実行です。 OCRに必要となるのは、文章領域・文字の検出用と、文字のクラス分類用の二つのニューラルネットワークです。 Center Line Detection まず、OCRでは、画像中にある文字を全て取り出せば、それで良いわけではありません。 文字は繋がって文章となり、ひとまとまりの

                                                  日本語OCRを作ったので解説してみる - Qiita
                                                • 自作プログラム | Hello, My Friends

                                                  ゲーム画面DeepL翻訳支援ツールOCR2DeepL ※ぬるっぽさんによる翻訳支援ツールPCOTの方が優れているため こちらアップデートの予定はありません PCOTを利用することを推奨しています ダウンロードページ ヌルポインターストライク スクリーンOCR(Capture2Textなど)と連携しゲーム画面を話題のDeepL Translatorで 翻訳するツールです Capture2TextとDeepLアプリを連携させますので、別途それぞれのアプリの インストールが必要となります ※電ファミニコゲーマーさん記事にして頂きました! ダウンロード 使い方はreadmeをよくお読み下さい Capture2Textの設定例 Q&A Q. DeepLアプリが反応しない時がある A. Capture2Text/DeepLアプリ/OCR2DeepLの3つが起動しているか確認してください また稀にタイミ

                                                    自作プログラム | Hello, My Friends
                                                  • [解決!Python]PDFファイルからテキストや画像を抽出するには

                                                    pdfminer.sixパッケージを用いて、PDFファイルからテキストや画像を抽出する方法を紹介する。 from pdfminer.high_level import extract_text from pathlib import Path # PDFファイルからテキストを抽出 source = Path('atmarkit_ebook116.pdf') text = extract_text(source) print(text) # extract_text_to_fp関数を使う from pdfminer.high_level import extract_text_to_fp dest = Path('out.txt') with open(source, 'rb') as fp_in, open(dest, 'wb') as fp_out: extract_text_to_fp

                                                      [解決!Python]PDFファイルからテキストや画像を抽出するには
                                                    • Tesseract OCR をWindowsにインストールする方法 - ガンマソフト

                                                      ブログ Tesseract OCR をWindowsにインストールする方法 [PR] 2019/10/28 2020/1/7 | OCR 業務効率化 OCRをPythonで操作できれば大量の紙資料の読み取りも自動化できます。特に郵便番号や請求書番号など定型書類の番号を読み取る作業は代表的な活用例です。 普段のオフィスワークではOCRソフトウェアを用いるのが一般的です。しかし、こららのソフトウェアはPythonから操作できません。そこで、OCRエンジンのみを利用してPythonから操作します。 代表的なOCRエンジンにGoogleがオープンソースで開発している「Tesseract 」があります。 今回はPythonでOCRを操作するための準備として、このTesseractをWindowsにインストールする手順を説明します。 本記事の目次 Tesseractのダウンロード Tesseractの

                                                        Tesseract OCR をWindowsにインストールする方法 - ガンマソフト
                                                      • 【PySimpleGUI】PythonでオリジナルGUIアプリを作成 - Qiita

                                                        ★追記 このライブラリはライセンスが色々面倒になったみたいですね。 代替として以下のTkEasyGUIなんていかがでしょうか? ほぼ使い勝手そのままでライセンスもMITです https://github.com/kujirahand/tkeasygui-python/blob/main/README-ja.md 前回に引き続き連載ネタ第2弾です。 今回は前回の成果物を使ってPythonでGUIアプリを作成してみようと思います。 TkinterというPythonの標準GUIライブラリでもいいのですが、はっきり言ってPySimpleGUIの方がいいと感じたので、今回はPySimpleGUIを使用したGUI作成をやっていきます。 【第1回】Pythonで簡単に日本語OCR  ※前回記事 【第2回】PythonでオリジナルGUIアプリを作成 ←今回はこの記事 【第3回】Pythonで作成したアプリ

                                                          【PySimpleGUI】PythonでオリジナルGUIアプリを作成 - Qiita
                                                        • GitHub - microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

                                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                            GitHub - microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities
                                                          • 画面の表示内容を文字起こし! 「Microsoft PowerToys」向けOCR機能の開発が進行中

                                                            MicrosoftがWindows 11向けにリリースしている公式ユーティリティーアプリ「PowerToys」に、画面の表示内容や画像ファイルに含まれる文字を読み取る「OCR機能」が追加される予定だ。現在、実装に向けた作業がGitHub上で進められている。 PowerToysは、ディスプレイの指定した位置にウィンドウをスナップ配置できる「FancyZones」や複数のファイル名を一括で変更できる「PowerRename」、右クリックメニューから画像サイズを変更できる「Image Resizer」など、複数のユーティリティーを内包している。 開発が進められているOCR機能もユーティリティーの1つとして開発が進んでおり、画面内の指定された領域または画像ファイルに含まれる文字を認識してテキストとして取り込めるという。 画像ファイルのOCR機能は、GoogleのWebブラウザ「Chrome」でも「

                                                              画面の表示内容を文字起こし! 「Microsoft PowerToys」向けOCR機能の開発が進行中
                                                            • Google Colabを用いたNDLOCRアプリのVersion 2を作成しました。

                                                              お知らせ ノートブックのURL 2022-07-06 使い方のデモ動画を作成しました。 またルビのテキスト化機能が追加されました。 概要 Google Colabを用いたNDLOCRアプリを作成し、以下の記事で紹介しました。 今回は、上記ノートブックの改良版であるVersion 2を作成しましたので紹介します。以下からノートブックにアクセスいただけます。 特徴 複数の入力形式に対応しました。以下のオプションを使用できます。 画像 単一の画像ファイルのURLを指定する場合 単一の画像ファイルをアップロードする場合 複数の既にダウンロード済みの画像ファイルを対象にする場合(Sigle input dir mode) 複数の既にダウンロード済みの画像ファイルを対象にする場合(Image file mode: 単体の画像ファイルを入力として与える場合) PDF 単一のPDFファイルのURLを指定す

                                                                Google Colabを用いたNDLOCRアプリのVersion 2を作成しました。
                                                              • 紙だけでファイルはない!? スマホをスキャナー代わりに紙資料をデータ化する技【残業を減らす!Officeテクニック】

                                                                  紙だけでファイルはない!? スマホをスキャナー代わりに紙資料をデータ化する技【残業を減らす!Officeテクニック】
                                                                • Screen Translator - k本的に無料ソフト・フリーソフト

                                                                  画面内に映った文字列を抽出&コピー可能にし、必要であれば自動翻訳もしてくれる OCR ツール。 マウスドラッグで囲んだ領域内にあるテキストを抽出し、任意の言語に自動で翻訳できるようにしてくれます。 抽出結果のテキスト(翻訳テキストも含む)をホットキーでコピーする機能や、複数の領域を一度に OCR する機能、Hunspell によるスペルチェック機能 なども付いています。 「Screen Translator」は、翻訳機能付きの OCR ツールです。 マウスドラッグで囲んだ矩形領域内にあるテキストを抽出し、必要に応じて任意の言語に自動翻訳もしてくれる... という OCR &翻訳ツールです。 (翻訳機能はオフにすることもできる) OCR エンジンは Google の “ Tesseract ” を、翻訳エンジンは Google / DeepL / Bing / Baidu / Yandex

                                                                    Screen Translator - k本的に無料ソフト・フリーソフト
                                                                  • スマホを携帯スキャナーに、かさばる紙の書類をどんどんデジタル化

                                                                    企業の現場では文書の電子化が進んだとはいえ、プレゼンで配られる資料や会議の議事録、取引先から送られる案内書など、紙の書類はいろいろある。そうした書類をパソコンに取り込んで利用したいことも多いだろう。デジタル複合機を使えるなら、スキャナー機能で書類をデジタル化できる。ただし、文字認識(OCR)機能がない機器では、別途OCRアプリが必要になる。そのほか、個人向けのスキャナーやドキュメントスキャナーを使う手もある。 スマホが携帯スキャナーに しかし、数枚程度の書類なら、スマホでもデジタル化は可能だ(図1)。近年はスマホ内蔵カメラの性能が向上し、書類の撮影でも画質は十分。OCR機能を備え、各種の形式で出力できるスマホアプリも数多くある。スマホのメリットは携帯性と手軽さだ。受け取った書類をそのつど撮影する習慣にしていれば、たまった書類に悩む必要はない。

                                                                      スマホを携帯スキャナーに、かさばる紙の書類をどんどんデジタル化
                                                                    • 【JavaScript】ブラウザだけでカメラ撮影した文字を読み取る(OCR)

                                                                      さてさて、このところLaravelの新バージョンがリリースされたこともあってほぼLaravel記事ばかりでしたが、やはり開発者として「気になること」もたまにはやってみたいということで、今回は「ある驚く機能」をブラウザで実装してみたいと思います。 その機能とは・・・・・ OCR(画像から文字を読み取る) 機能です。 実は、OCRは次の記事で紹介をしたことがあります。 📝 無料でできる!PHPで画像からテキストを読み取る方法 しかし、これはPHPからコマンドを実行する方法なので、サーバーが必須でした。 しかし、この間すごいパッケージを発見してしまったんです。 その名も、「tesseract.js」です。 なんと、このパッケージは純粋にブラウザのJavaScriptだけでOCRを実現するというスグレモノなんです。 そこで❗ 開発者として、どうしてもやってみたくなったので、今回は需要は度外視して

                                                                        【JavaScript】ブラウザだけでカメラ撮影した文字を読み取る(OCR)
                                                                      • How to Convert an Image With Handwriting to Text Using OCR

                                                                        Do you need to digitize handwritten notes to edit or index them? Or would you like to copy text from the picture of a handwritten quote? What you need is something called an optical character recognition (OCR) tool. OCR tools analyze the handwritten or typed text in images and convert it into editable text. Some tools even have spell checkers that give additional help in the case of unrecognizable

                                                                          How to Convert an Image With Handwriting to Text Using OCR
                                                                        • 国立国会図書館(NDL)、OCR処理プログラム「NDLOCR」ver.2を公開

                                                                          2023年7月12日に、国立国会図書館(NDL)が、OCR処理プログラム「NDLOCR」のver.2を、NDLラボ公式GitHubで公開しました。 NDLOCRは、NDLがデジタル化した資料から、全文テキストデータを作成することを目的に開発したものです。 2023年4月に公開したver.1が、全文検索用途が主目的の開発であるのに対し、ver.2は、視覚障害者等の読み上げ用途にも利用できるよう、読み上げ順序の推定等の機能の追加や文字認識性能の改善を行っています。 また、ver.2には、2022年度にNDLが外部委託して開発したver.2.0と、2023年4月~6月にNDLが改善作業を実施したver.2.1があります。 NDLOCR ver.2の公開について(NDLラボ, 2023/7/12) https://lab.ndl.go.jp/news/2023/2023-07-12/ NDLOCR

                                                                            国立国会図書館(NDL)、OCR処理プログラム「NDLOCR」ver.2を公開
                                                                          • 「普通のパソコン」でも手書き文字を認識、PFUの新AI OCRの本命度

                                                                            オフィスの働き方改革で、ソフトウエアのロボット(ソフトロボ)でパソコン作業を自動化するRPA(ロボティック・プロセス・オートメーション)とともに注目を集めている技術がある。紙文書の文字を読み取ってテキストデータに変換するOCR(光学的文字認識)である。 2つの技術を組み合わせると、「請求書や申請書といった紙文書の内容を読み取ってパソコンにデータとして入力する」というオフィスワーカーの繰り返し作業を自動化できる。具体的にはまず、紙文書を複合機などでスキャンして画像やPDF形式のデータにする。それをOCRにかけてテキストデータに変換する。このテキストデータをRPAのソフトロボが引き継ぐと、パソコンを使ってシステムにデータを自動入力できるようになる。 OCRのうち、ここ1~2年で進化を遂げている技術が、AI(人工知能)技術を組み込んで、紙文書の手書き文字も読み取れるようにした「AI OCR」だ。

                                                                              「普通のパソコン」でも手書き文字を認識、PFUの新AI OCRの本命度
                                                                            • Kindleのハイライト機能をもっと使う | シゴタノ!

                                                                              今時、本や書類から文章を引用するといっても、デジタルから直接引用すれば事足りることがほとんどでしょう。 ブログ記事や、Kindleからの引用であれば、コピペで足りるので、非常に簡単ですし、しかも安心です。 自分自身で紙の文書などを読みながら引用しますと、どうしてもミスタイプが発生しますし、ひらくか漢字にするかというところで、自分のクセが出てしまいます。 電子書籍生活が一変する コピペが安心なのは、そういうところに気をつけなくても済むからです。これだけでもなるべくコピペにしておきたい。 ですので私は、紙の本でもKindleでも入手できるケースでは、よほどのことがない限りKindleにしておきます。Kindleならば、気になったところを「ハイライト」しておくだけで、後からその部分がサイトにまとめておいてもらえるからです。 こちらは、もしあまり使ってないなら、とてももったいないので、ぜひ活用をオ

                                                                                Kindleのハイライト機能をもっと使う | シゴタノ!
                                                                              • 【2022年版】Azure/GCP/AWS OCRサービス比較(随時更新) - Qiita

                                                                                はじめに 概要 昨年主要なパブリッククラウドであるAzure,GCP,AWSのOCRサービスの比較記事を書きましたが、クラウドの世界は進化が早いですね。 2021年にそれぞれのサービスでアップデートがありましたので、改めて比較してみたいと思います。 以下の前回の比較記事です。 【2021年版】Azure/GCP/AWS OCRサービス比較 実は今回、マイクロソフトから最新のAPIのプライベートプレビュー版を入手しました。 プライベートプレビュー版なのでバージョンアップ内容の詳細は控えますが、日本語手書き文字の認識精度が猛烈に向上しています。 (2022/05/02 追記) 2022年2月にパブリックプレビューに移行しました。 バージョンアップ内容の詳細はこちらをご確認ください。 この記事の想定読者 クラウドが提供するOCR機能に興味のある方 どのクラウドサービスを導入しようか迷われている方

                                                                                  【2022年版】Azure/GCP/AWS OCRサービス比較(随時更新) - Qiita
                                                                                • 【RPA】AI-OCR適用業務選定をする際の注意点 - 精度100%の壁 - Qiita

                                                                                  RPA適用業務は半分近くがOCRと絡むともいわれており、帳票を読み取って電子化して自動化をしたいというニーズは多い。RPAソフトウェアの多くもOCR機能を標準で内蔵して、これに応えている。しかし、OCR関連のプロジェクトでPoCを実施する際には「はまりポイント」が存在し、検証段階で頓挫してしまうプロジェクトも結構あるという。筆者もいくつかのプロジェクトを見てきたが、このはまりポイントの事を「精度100%の壁」と仮に呼ぶことにした。OCRプロジェクトがはまってしまう理由を、OCRエンジンの現状を踏まえながら見ていき、対応策を考えてみることにする。 主なAI-OCRエンジンの種類とその精度 まず、日本市場でRPAソフトウェアと一緒に使われることが多い主なOCRを見てみよう。AI-OCRというのは、最近のOCRエンジンは従来の技術に加えてディープラーニングの技術を使って文字の認識や帳票レイアウト

                                                                                    【RPA】AI-OCR適用業務選定をする際の注意点 - 精度100%の壁 - Qiita