soulja_boyのブックマーク / 2022年3月23日

Python＋Tesseractによる画像処理でOCRを試してみた！ – 株式会社ライトコード

Tesseract とは？ Tesseract は、オープンソースの OCR エンジンです。「OCR」とは、画像ファイル中の文字を、テキストファイルとして読み込む技術のことです。 Tesseract は、コマンドラインのインターフェースを実装しているため、パソコンへインストールするだけで、OCR ができます。 Tesseract と Python で画像処理するメリットは？Tesseract を Python と組み合わせて利用すれば、画像を前処理してから Tesseract へ渡すことができます。これにより、OCR の精度が向上し、Tesseract が読み取った文字列を任意の形に処理できます。例えば、紙に印刷された文書も、Tesseract を利用すれば、テキストデータとして保管できるのです。さて、今回は、Tesseractを使って、画像処理でOCRを試してみたいと思います！

soulja_boy 2022/03/23

Work - Python

リンク

Keras + OpenCV で画像認識による簡易的なアンケート読み取りシステムを作ってみた① - Qiita

この記事について飲食店のテーブルなどに置いてあるアンケート用紙。そのアンケートの集計はお店のスタッフがExcelなどの表計算ツールに打ち込んで集計していたりします。こういう非効率な作業を自動化できないかと思って、OCRに関する知識が全くない状態でアンケート用紙を読み取る簡易的なシステムを作って見ました。この記事はその備忘録です。システム概要作成するシステムはざっくり以下のような流れを想定しています。 1.記入済みのアンケートを撮影する 2.撮影されたアンケート画像に対してOCR処理を行う 3.OCRによる読み取り結果を出力するアンケートの記入形式リッカート尺度に基づく11段階評価と5段階評価による記入形式で該当する数字にマルをつけてもらう形式です。 OCRの仕組みアンケート用紙のOCR処理は下記のような仕組みにしました。 ① 傾き補正を行う ② 11点尺度&5点尺度の各アンケ

soulja_boy 2022/03/23

Work - Python

リンク

Google Cloud Vision APIのOCRを使ってPythonから文字認識する方法

こんにちは、業務自動化ツール開発担当の吉池（@valmore_myoshi）です。今回はGoogle Cloud Vision APIのOCRを使用して画像から文字認識する方法を解説します。さまざまな言語で扱えますが本記事ではPythonを使いたいと思います。 Cloud Vision APIの精度を試したり、使い方を学ぶときにお役立てください。 Cloud Vision APIとは？ Cloud Vision APIは画像認識に特化したAPIです。画像から顔を検出したり、写っているものを識別できます。本記事ではそのなかでもOCRを使ったテキスト検出に絞って解説します。 REST APIやさまざまな言語ごとに用意されているクライアントライブラリを通してCloud Vision APIを使用できます。Cloud Vision APIでできることや精度を知りたい方は画像をアップロードするだけ

soulja_boy 2022/03/23

Work - Python

リンク

Vision API OCR事始め(1)：TEXT_DETECTIONとDOCUMENT_TEXT_DETECTIONの違い

大福好きの甘党ソフトウェアエンジニア（主に業務システム系）である『テクノ大福』のブログです。面白そうな技術、影響を受けた本や音楽などを共有したいと思っています。

soulja_boy 2022/03/23

Google VIsion API OCR

Work - Python

リンク

Google Cloud Vision APIを使って画像から文字を読み取る | OCテックノート

ほぼ、「やってみた」レベルではありますが、自分のメモとしても書いておこうと思います。やりたかったことは、画像から文字を読み取りたい、ということです。そのために、Google Cloud Visionを使います。最初に言うと、プログラミング的なことはほぼGoogleさんが提供するサンプルコードでできるので、ここで独創的なことは何もやっていないのですが、わかりづらかったのはGoogle CloudのAPIを有効にすることなので、そこを絡めてメモしておきたいと思いました（笑）。なので、その辺を含め紹介していきます。 ①Google Cloudにアカウントがなければ作りましょう。 Google Cloud Console ②Vision APIを設定にします。下記を読んで、手順通りにやります。 https://cloud.google.com/vision/docs/setup 途中、秘密

soulja_boy 2022/03/23

Work - Python

リンク

Google Cloud Vision APIのTEXT_DETECTION を Pythonで試してみる - JUNのブログ

Google Cloud Vision API の中の文字認識(TEXT DETECTION)について書いてる記事が少なかったのと、自分が躓いたりしたりしたので、ここにメモしておく。 APIKEYの発行の仕方等々については以下のサイトを参考にした。 Google Cloud Vision APIの使い方まとめ環境 Windows10 Python3.6.3 プログラムはbash上で実行コード import requests import json import base64 # 画像はbase64でエンコードする必要があるため API_KEY = "自分のAPIKEY" def text_detection(image_path): api_url = 'https://vision.google apis.com/v1/images:annotate?key={}'.format(AP

soulja_boy 2022/03/23

Work - Python

リンク

画像内のテキストを検出する | Cloud Vision API | Google Cloud

光学式文字認識（OCR） Vision API では、画像からテキストを検出、抽出できます。光学式文字認識（OCR）をサポートするアノテーション機能が 2 つあります。 TEXT_DETECTION は、任意の画像からテキストを検出、抽出します。たとえば、写真に道路名や交通標識が写っていれば、抽出された文字列全体、個々の単語、それらの境界ボックスが JSON レスポンスに含まれます。 DOCUMENT_TEXT_DETECTION も画像からテキストを抽出しますが、高密度のテキストやドキュメントに応じてレスポンスが最適化され、ページ、ブロック、段落、単語、改行の情報が JSON に含まれます。手書き入力の抽出とファイル（PDF / TIFF）からのテキスト抽出については、DOCUMENT_TEXT_DETECTION をご覧ください。使ってみる Google Cloud を初めて使用す

soulja_boy 2022/03/23

Work - Python

リンク

高密度ドキュメントのテキスト検出のチュートリアル | Cloud Vision API | Google Cloud

フィードバックを送信高密度ドキュメントのテキスト検出のチュートリアルコレクションでコンテンツを整理必要に応じて、コンテンツの保存と分類を行います。オーディエンスこのチュートリアルの目的は、Google Cloud Vision API のドキュメントテキスト検出機能を使用してアプリケーションを開発する方法を学ぶことです。このチュートリアルは、基本的なプログラミング構成やテクニックの知識があることを前提としていますが、プログラミングの初心者の方にも簡単に操作できるように設計されています。Cloud Vision API リファレンスドキュメントを参照しながらチュートリアルに従うことで、基本的なアプリケーションを作成できるようになります。前提条件 Google Cloud Console で Cloud Vision API プロジェクトを設定します。アプリケーションのデフォ

soulja_boy 2022/03/23

Work - Python

リンク

CentOS7にTesseractをインストール【Tesseract5.0.0-alpha奮戦記】 - ホンモノのエンジニアになりたい

みなさん、こんにちわ。今日も元気にOCRしてますか？えっ？してない？働き方改革で生産性がホゲフガなこの時代に、してないですって？だってOCRソフトってお高いんでしょう？持ち合わせがございませんもの。ですって？ HAHAHA、なるほどなるほど、大丈夫！そう、Tesseractがあればね。 OCRなんてそんな古臭いプロダクトで遊んでる暇はない！ですって？ AIやRPAじゃないとカッコ付かないし、予算も下りないんだよ！ですって？ HAHAHA、なるほどなるほど、大丈夫。そう、Tesseractがあればね。 Tesseractは現在Googleが開発してるオープンソースのOCRエンジンです。タダで使えます。そのうえ最近のバージョンではいま流行りの機械学習の仕組みが入っています。更にこのソフトウェアの得意な作業はいわゆるRPAに通じるところがあります。偉い人は「当社もAIとRPAの導入に着

soulja_boy 2022/03/23

Work - Python

リンク

Tesseract-OCR のオリジナル学習データを作成してSwift(iOSアプリ)で使う〜(1) 準備編〜 - Qiita

はじめに自前でOCR機能を開発しようと思ったら、OCRライブラリとしては現状 Tesseract-OCR 一択かなと思います。もっと素晴らしいライブラリあったら知りたいなぁと思いますが、 OCRについて調査した５〜６年前から現在に至るまで、OCRの分野で劇的なブレイクスルーは感じていません...。 Tesseract-OCRには、公式？から各言語の一般的に利用できる学習データが公開されています。しかしながら、この汎用的な学習データをそのまま使っても、自分が利用したい「固有の用途」にはイマイチなことがほとんどかと思います。例えば... 検出したい内容が限られている、業務上の何らかの文字列のOCR 特定のフォントの特定の文字列だけでいいOCR ある特殊なフォントに対応するだけでいいOCR ある特定人物の手書き文字のOCR ...etc 自分が欲するOCR学習データを作成してしまいましょ

soulja_boy 2022/03/23

Work - Python

リンク

Splatoon2で表示される文字をフォントから学習してTesseraactでOCRする - 粗大メモ置き場

概要背景目指すところ筆者の開発環境 OCR環境を整えてSplatoon2のフォントを学習する TesseractとPyOCR環境のインストール学習用ツールjTessBoxEditorのインストール Splatoon2のフォントをDLしてくる Splatoon2のフォントを学習する学習の実行結果だけ欲しい人用 OpenCVとPILを用いてOCR結果を表示 PyOCRのimage_to_stringでOCRする PyOCRの検出結果を描画する OpenCV画像に日本語テキストを書き込むこれらの機能のまとめその他コツ適用結果とその比較スペシャル情報試合時間・カウントルール名・タイトルおわりに TODO 超余談：Gistにバイナリを上げる方法概要 Splatoon2の録画の動画からカウントや時間，スペシャルなどの情報を抽出するためにOCRを行うコンテンツ Tesser

soulja_boy 2022/03/23

Work - Python

リンク

【Pyocr+TesseractOCR】競馬新聞の活字化；精度向上♬ - Qiita

今回は精度向上に挑戦してみた。結果からいうと、どうも使えないかなって感じがする。以下の二つを参考にした。【参考】 ①Pythonで日本語OCRを行うときのメモ ②甲骨文字で書かれた文章をOCRで読み取れるようにしてみるやったこと・読込・解釈するモードを変更してみる・精度を上げるために、 ①学習済データを変える ②学習してみる・読込・解釈するモードを変更してみる参考①から以下の読み込みパラメータを変更できることを知ったので、これをやってみた。結果は、やはり６が一番よさそうである。 ※詳細は省略します pagesegmode values are: 0 = Orientation and script detection (OSD) only. 1 = Automatic page segmentation with OSD. 2 = Automatic page segme

soulja_boy 2022/03/23

Work - Python

リンク

http://www.tkl.iis.u-tokyo.ac.jp/new/uploads/publication_file/file/942/IPSJ-AAC20013003.pdf

soulja_boy 2022/03/23

OCR の文字の確率と事前学習済み BERT の MASK の候補を組み合わせた後処理での認識率の改善

Work - Python

リンク

PyTesseractの使い方

soulja_boy 2022/03/23

PyTesserat

Work - Python

リンク

PyocrとTesseractで精度の高いOCRを作ってみよう

PythonのライブラリPyocrを使い、OCR処理が出来るプログラムを作成してみようと思います。OCRとは『光学的文字認識』の意で、画像中に表示されている文字情報を抽出し、テキストデータへ変換する技術のことです。最近はAI OCRが有名ですね。もっとも今回はPythonだけではなく、Googleが公開しているOCRエンジン・Tesseractを組み合わせて作ります。なおOSはWindowsです。記事の前半でプログラムの作り方を、後半で実際にレシート画像の文字を抽出してみたので、最後までお読みいただけると嬉しいです！ライブラリとTesseractのインストール全体のコードの解説に入る前に、まず今回使用するライブラリの紹介をします。以下のコードでライブラリ等をインストールしてください。 pip install pillow pip install pyocr tesseract-o

soulja_boy 2022/03/23

Work - Python

リンク

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P3-3.pdf

soulja_boy 2022/03/23

OCR誤り訂正を用いた歴史新聞データからのコーパス構築

Work - Python

リンク

Tesseract User Manual

Skip to the content. Tesseract User Manual This user manual is for Tesseract versions 5.x. For versions 4.x.x, 3.05.02 and older, see the documentation for old versions. Tesseract User Manual Introduction Releases and Changelog Tesseract with LSTM 5.x.x Source Code Binaries Traineddata Files Compiling and Installation Usage API Examples Technical Information Training for Tesseract 5 Testing Extern

soulja_boy 2022/03/23

Work - Python

リンク

Python, OpenCV, NumPyでカラー画像を白黒（グレースケール）に変換 | note.nkmk.me

PythonでNumPy配列ndarrayで表されたカラー画像を白黒（グレースケール）に変換する方法について、OpenCVの関数cv2.cvtColor()を使う方法とndarrayをそのまま計算する方法を説明する。輝度信号Yの算出方法（YUVとRGBの関係） OpenCVの関数cv2.cvtColor(), cv2.COLOR_BGR2GRAYで変換 cv2.imread()のグレースケール読み込みとの違い NumPy配列ndarrayを直接計算して変換なお、Pillowではconvert('L')でモードをLに変換することで白黒に変換できる。関連記事: Pythonの画像処理ライブラリPillow(PIL)の使い方以下のサンプルコードのOpenCVのバージョンは4.2。バージョンが異なる場合は振る舞いが違う可能性があるので注意。各バージョンの公式ドキュメントは以下から。 Ope

soulja_boy 2022/03/23

OpenCV グレースケールはcvtColorを使った方が精度が安定する

Work - Python

リンク

Pythonでデレステのガシャのスクショからアイドルの名前を読み取ろうと頑張った - 月を眺める孤島

こんばんは、むぅんです。僕はこれまで引いたガシャの記録を全て取っており、定期的にExcelにデータを入力しては眺めて楽しんでいたのですが最近サボりまくったせいでスクショが溜まりに溜まってえらいことになってしまいました。特におはガシャはその場ですぐに記録すればいいものをあろうことか毎日スクショで済ませてしまったが故に、今からこれを手動で打ち込むのはExcelの入力補完を使っても流石にしんどいものがあります。そこで、Pythonで画像を頑張って加工して文字を自動で読み取れるようにしたら楽なんじゃね？という結論に至ったのでプログラムを組んでみました。今回は、TesseractというGoogleによって開発されているOCR（光学文字認識）エンジンを用いて画像から名前を出力するのを目標とします。画像の加工は皆大好きOpenCVです。なお、Pythonのバージョンは3.6です。これから、こ

soulja_boy 2022/03/23

pyocr コントラスト変更して文字読み取る

Work - Python

リンク

自然言語処理 - MyMemoWikiOld

テキストコーパスとは巨大なテキストのこと 1つ以上のジャンルから集められた素材をバランスよく含むようにデザインされる Python NLTK(Natural Language Toolkit) をインストールして、以下を試す。テキストを検索する text1: Moby Dick by Herman Melville 1851 (白鯨) から、"monstrous"という単語を調べる >>> text1.concordance('monstrous') Building index... Displaying 11 of 11 matches: ong the former , one was of a most monstrous size . ... This came towards us , ON OF THE PSALMS . " Touching that monstrous

soulja_boy 2022/03/23

コーパス

Work - Python

リンク

はてなブックマーク

タグ

2022年3月23日のブックマーク (20件)

Python＋Tesseractによる画像処理でOCRを試してみた！ – 株式会社ライトコード

Keras + OpenCV で画像認識による簡易的なアンケート読み取りシステムを作ってみた① - Qiita

Google Cloud Vision APIのOCRを使ってPythonから文字認識する方法

Vision API OCR事始め(1)：TEXT_DETECTIONとDOCUMENT_TEXT_DETECTIONの違い

Google Cloud Vision APIを使って画像から文字を読み取る | OCテックノート

Google Cloud Vision APIのTEXT_DETECTION を Pythonで試してみる - JUNのブログ

画像内のテキストを検出する | Cloud Vision API | Google Cloud

高密度ドキュメントのテキスト検出のチュートリアル | Cloud Vision API | Google Cloud

CentOS7にTesseractをインストール【Tesseract5.0.0-alpha奮戦記】 - ホンモノのエンジニアになりたい

Tesseract-OCR のオリジナル学習データを作成してSwift(iOSアプリ)で使う〜(1) 準備編〜 - Qiita

Splatoon2で表示される文字をフォントから学習してTesseraactでOCRする - 粗大メモ置き場

【Pyocr+TesseractOCR】競馬新聞の活字化；精度向上♬ - Qiita

http://www.tkl.iis.u-tokyo.ac.jp/new/uploads/publication_file/file/942/IPSJ-AAC20013003.pdf

PyTesseractの使い方

PyocrとTesseractで精度の高いOCRを作ってみよう

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P3-3.pdf

Tesseract User Manual

Python, OpenCV, NumPyでカラー画像を白黒（グレースケール）に変換 | note.nkmk.me

Pythonでデレステのガシャのスクショからアイドルの名前を読み取ろうと頑張った - 月を眺める孤島

自然言語処理 - MyMemoWikiOld

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス