タグ

画像処理とOCRに関するotori334のブックマーク (12)

  • https://twitter.com/yag_ays/status/1521348285687951362

    https://twitter.com/yag_ays/status/1521348285687951362
  • OCR処理プログラム及び学習用データセットの公開について | NDLラボ

    2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日語のOCR処理プログラムです。 このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。 機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。 リポジトリ : https://github.com/ndl-lab/

  • コンピュータグラフィックスの基礎

    otori334
    otori334 2022/04/09
    アイデア テクスチャマッピングの逆
  • 画像の関心領域座標を特定する方法(opencv) - 獣医 x プログラミング

    こうやって数字だけを取り出したいです。 青い四角の4頂点の座標がわかればアフィン変換を実施して、数字だけを取り出すことができます。4頂点の座標を自動で取得したいと思います。 試行錯誤の記録を残しておきます。(最終的にはarucoマーカーを使うべきとの結論に至りました) 試行1 RGBの青色だけを取り出せばいいのではないか? 青色の枠は、Bの数値が高いのでそれを利用してedge detectionをすればいいのではないか。 img = cv2.imread("C:\\Users\\tegaki_1.jpg") img_resize = cv2.resize(img, (img.shape[1]//7,img.shape[0]//7)) img_B = img_resize[:,:,0] cv2.imshow('image',img_B) cv2.waitKey() 結論:失敗。青が白に消えて

    画像の関心領域座標を特定する方法(opencv) - 獣医 x プログラミング
    otori334
    otori334 2022/03/21
    “ARUCOマーカーを使えば、位置の特定が容易です。ただ単に、その存在を知りませんでした。”
  • https://www.jstage.jst.go.jp/article/fss/29/0/29_50/_pdf

    otori334
    otori334 2022/03/06
    曲面上の情報取得のための平面化処理に関する検討
  • 射影変換 - Wikipedia

    出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。記事の信頼性向上にご協力をお願いいたします。(2018年12月) 射影幾何学において、n 次元射影空間の射影変換(しゃえいへんかん)とは、射影空間の同型写像である。図学的には中心投影変換に相当する[1]。 定義[編集] 体 k 上の n 次元射影空間 Pn(k) とは、ベクトル空間 kn+1 から原点を除いた空間を体 k の乗法群 k* のスカラー倍の作用で割った空間 のことである。すると、kn+1 の間の同型写像 f は、スカラー倍と可換であり、また 0 でないベクトルを 0 でないベクトルに写すから、Pn(k) の間の同型写像を誘導する。これが Pn(k) の射影変換である。 例[編集] リーマン球面 CP1 の一次分数変換 関連項目[編集] 射影変換群 脚注[編集]

  • ガボールフィルタ - Wikipedia

    2次元ガボールフィルタを漢字に作用させた例。左上から時計回りに原画像、搬送波の方向を45°づつ順に変えた4つのフィルタの作用結果、及びそれら4つのフィルタ結果を重ね合わせた図を表す。 ガボールフィルタ(英: Gabor filter)は、画像処理のテクスチャー解析等に用いられる線型フィルタの一種。(2次元のガボールフィルタでは)画像の各点周りの局所領域において、方向毎に特定の周波数成分を抽出することができる。 虹彩認識や指紋認証にも応用されている他、哺乳類の脳の一次視覚野にある単純型細胞の活動をモデル化できることが示されている。名称はガーボル・デーネシュに因む[1]。 定義[編集] 2次元ガボールフィルタのインパルス応答の例 細部が異なる種々の定義があるが、基的にはガウス関数(ガウシアンエンベロープとも呼ばれる)と三角関数(搬送波とも呼ばれる)の積として定義される[2][3][4]: の

    ガボールフィルタ - Wikipedia
  • 画像認識で機械学習が必要そうという結論に至るまでのメモ - catalinaの備忘録

    考えを整理するための個人的なメモ的なものです。かたりぃなです。 画像・動画・音声などから特定の「もの」を認識したいことって多々ありますよね。 少なくとも私の中ではしょっちゅうあります。 さて、今回の記事は物体認識の問題色々調べた結果を自分の中で整理するためのメモです。 基概念の整理が目的です。 物体認識とは まず物体認識とは何ぞや?という問いについて。物体認識を問題領域の観点から大別して2系統あるようです。 特定物体認識 一般物体認識 まず1について。これが私の欲しい物体認識です。 既知の物体Aについて、画像中のどこに物体Aが存在するか(もしくは存在しない)を調べる 2ですが、画像が何を示しているものなのかを言い当てる(車の画像!とか)物体認識です。 画像処理以外の方面の知識も必要となってくるので、こちらは当面は保留とします。 特定物体認識の古典的手法 古くからあるアルゴリズムとして、次

    画像認識で機械学習が必要そうという結論に至るまでのメモ - catalinaの備忘録
  • https://www.jstage.jst.go.jp/article/fss/30/0/30_154/_pdf/-char/ja

    otori334
    otori334 2021/07/05
    単眼カメラでの曲面文字情報取得のための断面形状推定による平面化手法の提案
  • 光学文字認識 - Wikipedia

    ポータブルスキャナを使ってリアルタイムで光学文字認識 (OCR) を行っている動画 光学文字認識(こうがくもじにんしき、英: Optical character recognition)は、活字、手書きテキストの画像を文字コードの列に変換するソフトウェアである。画像はイメージスキャナーや写真で取り込まれた文書、風景写真(風景内の看板の文字など)、画像内の字幕(テレビ放送画像内など)が使われる[1]。一般にOCRと略記される。 パスポート、請求書、銀行取引明細書、レシート、名刺、メール、データや文書の印刷物など、紙に記載されたデータをデータ入力する手法として広く使われ、紙に印刷された文書をデジタイズし、よりコンパクトな形で記録するのに必要とされる。さらに、文字コードに変換することでコグニティブコンピューティング、機械翻訳や音声合成の入力にも使えるようになり、テキストマイニングも可能となる。研

    光学文字認識 - Wikipedia
  • 【Python】9.3.3:混合ベルヌーイ分布のEMアルゴリズムの実装【PRMLのノート】 - からっぽのしょこ

    はじめに 『パターン認識と機械学習』の独学時のまとめです。一連の記事は「数式の行間埋め」または「R・Pythonでの実装」からアルゴリズムの理解を補助することを目的としています。とあわせて読んでください。 この記事は、9.3.3項の内容です。混合ベルヌーイ分布に対するEMアルゴリズムによる最尤推定をPythonで実装します。 【数理編】 www.anarchive-beta.com 【他の節一覧】 www.anarchive-beta.com 【この節の内容】 はじめに ・Pythonで実装 ・MNISTデータセットの準備 ・初期値の設定 ・推論処理 ・コード全体 ・処理の解説 ・Eステップ ・Mステップ ・対数尤度の計算 ・推論結果の確認 ・パラメータの確認 ・学習の推移の確認 ・分類結果の確認 ・他の結果 参考文献 おわりに ・Pythonで実装 MNISTデータセットを用いて、混合

    【Python】9.3.3:混合ベルヌーイ分布のEMアルゴリズムの実装【PRMLのノート】 - からっぽのしょこ
  • OCR前処理としてのOpenCV超解像 - OPTiM TECH BLOG

    R&D チームの徳田(@dakuton)です。 最近は画像とテキストの狭間にいます。 今回記事のまとめ 簡単にまとめると以下のとおりです。 いくつかの超解像(高解像度化)モデルがOpenCV extra modules(opencv_contrib)インストール + コード数行記述で導入可能 超解像に限らず、文字が一定サイズ以上になるような前処理 -> OCR解析 を実施すると、OCR精度改善につながることがある 超解像による見た目の滑らかさに比例して、OCR精度改善につながるわけではない 低計算コストな画像拡大から超解像に変更する恩恵は発生しにくい テスト条件を変えた場合、違った結果になる可能性あり(用いるOCRエンジン、画像の劣化条件、OpenCV未提供の後発モデル利用など) 実験内容 利用するOCRエンジンの実行条件は変えずに、前処理部分のみ変更した場合のOCR精度・速度変化を調べま

    OCR前処理としてのOpenCV超解像 - OPTiM TECH BLOG
  • 1