[B! 画像処理][OCR] otori334のブックマーク

otori334 id:otori334

画像処理とOCRに関するotori334のブックマーク (12)

https://twitter.com/yag_ays/status/1521348285687951362
otori334 2022/05/05
OCR

画像処理

本

機械学習
リンク
OCR処理プログラム及び学習用データセットの公開について | NDLラボ
2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館（以下、「当館」とします。）が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。リポジトリ : https://github.com/ndl-lab/
otori334 2022/05/05
OCR

画像処理

本

機械学習
リンク
コンピュータグラフィックスの基礎
otori334 2022/04/09
アイデアテクスチャマッピングの逆

画像処理

本

OCR

3DCG
リンク
画像の関心領域座標を特定する方法(opencv) - 獣医 x プログラミング
こうやって数字だけを取り出したいです。青い四角の４頂点の座標がわかればアフィン変換を実施して、数字だけを取り出すことができます。４頂点の座標を自動で取得したいと思います。試行錯誤の記録を残しておきます。（最終的にはarucoマーカーを使うべきとの結論に至りました）試行１　RGBの青色だけを取り出せばいいのではないか？青色の枠は、Bの数値が高いのでそれを利用してedge detectionをすればいいのではないか。 img = cv2.imread("C:\\Users\\tegaki_1.jpg") img_resize = cv2.resize(img, (img.shape[1]//7,img.shape[0]//7)) img_B = img_resize[:,:,0] cv2.imshow('image',img_B) cv2.waitKey() 結論：失敗。青が白に消えて
otori334 2022/03/21
“ARUCOマーカーを使えば、位置の特定が容易です。ただ単に、その存在を知りませんでした。”

画像処理

OpenCV

Python

OCR
リンク
https://www.jstage.jst.go.jp/article/fss/29/0/29_50/_pdf
otori334 2022/03/06
曲面上の情報取得のための平面化処理に関する検討

画像処理

3DCG

OCR

カメラ

PDF
リンク
射影変換 - Wikipedia
出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。記事の信頼性向上にご協力をお願いいたします。（2018年12月）射影幾何学において、n 次元射影空間の射影変換（しゃえいへんかん）とは、射影空間の同型写像である。図学的には中心投影変換に相当する[1]。定義[編集] 体 k 上の n 次元射影空間 Pn(k) とは、ベクトル空間 kn+1 から原点を除いた空間を体 k の乗法群 k* のスカラー倍の作用で割った空間のことである。すると、kn+1 の間の同型写像 f は、スカラー倍と可換であり、また 0 でないベクトルを 0 でないベクトルに写すから、Pn(k) の間の同型写像を誘導する。これが Pn(k) の射影変換である。例[編集] リーマン球面 CP1 の一次分数変換関連項目[編集] 射影変換群脚注[編集]
otori334 2022/01/15
画像処理

OCR

数学
リンク
ガボールフィルタ - Wikipedia
2次元ガボールフィルタを漢字に作用させた例。左上から時計回りに原画像、搬送波の方向を45°づつ順に変えた4つのフィルタの作用結果、及びそれら4つのフィルタ結果を重ね合わせた図を表す。ガボールフィルタ（英: Gabor filter）は、画像処理のテクスチャー解析等に用いられる線型フィルタの一種。（2次元のガボールフィルタでは）画像の各点周りの局所領域において、方向毎に特定の周波数成分を抽出することができる。虹彩認識や指紋認証にも応用されている他、哺乳類の脳の一次視覚野にある単純型細胞の活動をモデル化できることが示されている。名称はガーボル・デーネシュに因む[1]。定義[編集] 2次元ガボールフィルタのインパルス応答の例細部が異なる種々の定義があるが、基本的にはガウス関数（ガウシアンエンベロープとも呼ばれる）と三角関数（搬送波とも呼ばれる）の積として定義される[2][3][4]：の
otori334 2022/01/14
画像処理

OCR

認知
リンク
画像認識で機械学習が必要そうという結論に至るまでのメモ - catalinaの備忘録
考えを整理するための個人的なメモ的なものです。かたりぃなです。画像・動画・音声などから特定の「もの」を認識したいことって多々ありますよね。少なくとも私の中ではしょっちゅうあります。さて、今回の記事は物体認識の問題色々調べた結果を自分の中で整理するためのメモです。基本概念の整理が目的です。物体認識とはまず物体認識とは何ぞや？という問いについて。物体認識を問題領域の観点から大別して２系統あるようです。特定物体認識一般物体認識まず1について。これが私の欲しい物体認識です。既知の物体Aについて、画像中のどこに物体Aが存在するか(もしくは存在しない)を調べる 2ですが、画像が何を示しているものなのかを言い当てる(車の画像！とか)物体認識です。画像処理以外の方面の知識も必要となってくるので、こちらは当面は保留とします。特定物体認識の古典的手法古くからあるアルゴリズムとして、次
otori334 2021/11/14
画像処理

選定

OpenCV

OCR

機械学習
リンク
https://www.jstage.jst.go.jp/article/fss/30/0/30_154/_pdf/-char/ja
otori334 2021/07/05
単眼カメラでの曲面文字情報取得のための断面形状推定による平面化手法の提案

OCR

画像処理

カメラ

本

PDF
リンク
光学文字認識 - Wikipedia
ポータブルスキャナを使ってリアルタイムで光学文字認識 (OCR) を行っている動画光学文字認識（こうがくもじにんしき、英: Optical character recognition）は、活字、手書きテキストの画像を文字コードの列に変換するソフトウェアである。画像はイメージスキャナーや写真で取り込まれた文書、風景写真（風景内の看板の文字など）、画像内の字幕（テレビ放送画像内など）が使われる[1]。一般にOCRと略記される。パスポート、請求書、銀行取引明細書、レシート、名刺、メール、データや文書の印刷物など、紙に記載されたデータをデータ入力する手法として広く使われ、紙に印刷された文書をデジタイズし、よりコンパクトな形で記録するのに必要とされる。さらに、文字コードに変換することでコグニティブコンピューティング、機械翻訳や音声合成の入力にも使えるようになり、テキストマイニングも可能となる。研
otori334 2021/07/03
OCR

画像処理

フォント

印刷

光
リンク
【Python】9.3.3：混合ベルヌーイ分布のEMアルゴリズムの実装【PRMLのノート】 - からっぽのしょこ
はじめに『パターン認識と機械学習』の独学時のまとめです。一連の記事は「数式の行間埋め」または「R・Pythonでの実装」からアルゴリズムの理解を補助することを目的としています。本とあわせて読んでください。この記事は、9.3.3項の内容です。混合ベルヌーイ分布に対するEMアルゴリズムによる最尤推定をPythonで実装します。【数理編】 www.anarchive-beta.com 【他の節一覧】 www.anarchive-beta.com 【この節の内容】はじめに・Pythonで実装・MNISTデータセットの準備・初期値の設定・推論処理・コード全体・処理の解説・Eステップ・Mステップ・対数尤度の計算・推論結果の確認・パラメータの確認・学習の推移の確認・分類結果の確認・他の結果参考文献おわりに・Pythonで実装 MNISTデータセットを用いて、混合
otori334 2021/07/02
アルゴリズム

画像処理

OCR

Python

最適化
リンク
OCR前処理としてのOpenCV超解像 - OPTiM TECH BLOG
R&D チームの徳田（@dakuton）です。最近は画像とテキストの狭間にいます。今回記事のまとめ簡単にまとめると以下のとおりです。いくつかの超解像(高解像度化)モデルがOpenCV extra modules(opencv_contrib)インストール + コード数行記述で導入可能超解像に限らず、文字が一定サイズ以上になるような前処理 -> OCR解析を実施すると、OCR精度改善につながることがある超解像による見た目の滑らかさに比例して、OCR精度改善につながるわけではない低計算コストな画像拡大から超解像に変更する恩恵は発生しにくいテスト条件を変えた場合、違った結果になる可能性あり(用いるOCRエンジン、画像の劣化条件、OpenCV未提供の後発モデル利用など) 実験内容利用するOCRエンジンの実行条件は変えずに、前処理部分のみ変更した場合のOCR精度・速度変化を調べま
otori334 2021/03/23
画像処理

OpenCV

OCR
リンク
1