タグ

OCRに関するnminoruのブックマーク (7)

  • Tesseract 4.1にLSTMを使って日本語を再学習させる - Qiita

    背景 TesseractはオープンソースのOCRエンジンです。バージョン4.0から深層学習を採用したことで認識精度が大きく上がりました。このTesseractを実務で使ってみて、苦手分野があることが分かりました。 全角英数字 半角カタカナ 手書き文字 今回はこの3つのうち最初の2つの認識精度を上げるため、Tesseractの日語モデルを再学習させてみます。 なお、手書き文字の再学習についてはTesseract 4.1にLSTMを使って手書き文字を再学習させるにまとめています。 学習方法の選択 LSTMを使ったTesseractの学習方法には大きく分けて2つの方法があります。 新規学習方式 (Training From Scratch):ゼロからモデルを生成する 微調整方式 (Fine Tuning):既存のモデルから転移学習する 新規学習方式は、より多くのイタレーションと学習データが必要

    Tesseract 4.1にLSTMを使って日本語を再学習させる - Qiita
    nminoru
    nminoru 2020/05/17
  • Google OCR機能で画像の文字を認識して読み取りが便利! | Hep Hep!

    Google技術に色々と依存しているのだが、そんなGoogle技術の一つ、画像から文字を認識変換してくれる「OCR」機能を使ってみた。 OCRとは、Optical Character Reader の略で光学式文字読取装置のことで、実際にはGoogleの文字認識は装置は要らず画像をアップロードするだけで文字を読み取ってGoogle Docsに変換してくれる便利な機能だ。 関連 Google画像検索のやり方/スマホでできない場合の対処法 精度の高い結果を得るために精度の高いOCR結果を得るためには、以下の注意が必要。 ・解像度は高い方がいい ・光度が均一でコントラストがハッキリとした画像を使うと精度の高い結果が得られる ・画像のブレや焦点があっていないと、検出のクオリティは下がる ・画像やPDFファイルの最大サイズは2MB 最近のスマホなどで撮影した画像でも綺麗に認識してくれるので、予め

    Google OCR機能で画像の文字を認識して読み取りが便利! | Hep Hep!
  • EvernoteでエロゲのスクリーンショットをOCRして全文検索 - 偏読日記@はてな

    エロゲ/ギャルゲプレイ中の「画面キャプチャ」のススメ(その2) - 偏読日記@はてな この記事で書いたとおり、俺はPCでプレイするノベルゲーム(エロゲ/ギャルゲ)のプレイ中にスクリーンショットを保存することによりシーンや台詞を保存してあとから見返すのに使っています。ゲームへの没頭を妨げることなくPrintScreenキー一つで気軽に保存できるので、プレイ中の記録を取るのにかなり適した手段だと思っています。 しかし、問題はノベルゲームの文章を記録しているのに保存形式は画像であると言うこと。おかげで特定のシーンを見返そうと思っても一枚ずつ目視して探すほか手段がありません。 ファイルが少ないうちはまだ大丈夫でしょうが、俺の場合2003年からプレイ中画面キャプチャを続けてきた結果としてファイル総数16000超、ファイルサイズ総計4.9GBという恐ろしいことになっていたのです。 エバーノートでの名刺

    EvernoteでエロゲのスクリーンショットをOCRして全文検索 - 偏読日記@はてな
  • What is reCAPTCHA?

    Digitizing Books One Word at a Time reCAPTCHA is a free CAPTCHA service that helps to digitize books, newspapers and old time radio shows. Check out our paper in Science about it (or read more below). A CAPTCHA is a program that can tell whether its user is a human or a computer. You've probably seen them — colorful images with distorted text at the bottom of Web registration forms. CAPTCHAs are u

    nminoru
    nminoru 2011/10/02
  • reCAPTCHAの無茶振りとその理由 - しろもじメモランダム

    CAPTCHA(いわゆる画像認証)の実装の一つにGoogleのreCAPTCHAというものがあるが、今日の昼にこんなものに引っかかった。 ウムラウト付きのcaptchaとか微妙に難易度高いなこれw URL 2011-09-30 11:53:27 via Janetter2 @mashabow 私はbiſhopを出されたことがありますw bishopで通りましたが 2011-09-30 11:56:53 via Tween to @mashabow どうやらreCAPTCHAは、a–zの26文字以外のアルファベットも出してくるらしい。面白そうだったので、更新ボタン(矢印が巴形になっているボタン)を押しまくって変なものが出てこないか探してみた。 reCAPTCHAの無茶振り・初級篇 thouſand。上のツイートにも出てきた ſ はいわゆる長いsで、現代風に表記すれば thousand。古い

    reCAPTCHAの無茶振りとその理由 - しろもじメモランダム
    nminoru
    nminoru 2011/10/02
    「書籍のデジタル化にあたってはOCRが使われるが、…読み取れない箇所が出てくる。その読み取れない単語をCAPTCHAの問題に使い、人間に解読してもらおう」おしっこちびりそうになるアイデアだ。脱糞する。いや脱帽する
  • テクノロジー : 日経電子版

    日経 xTECH(クロステック)分解班による2018年度版iPhone全機種分解もいよいよ大詰め。18年10月26日に発売された米アップルの「iPhone XR(テンアール)」(以…続き iPhoneXRの増産中止 Apple、委託先に要請 [有料会員限定] iPhone開けてびっくり、XSとXS Maxの電池が違う [有料会員限定]

    テクノロジー : 日経電子版
  • 毎分 200 ページ読み込めるブックスキャナ、東京大学が開発 | スラド ハードウェア

    東大の石川正俊教授らが開発した高速ブックスキャナが 家 /. の記事で取り上げられている。 このスキャナは高速カメラの下でのページをパラパラとめくっていき、その情報をキャプチャしていく仕組みだそうだ。撮影対象には 2 種類のライトを当てており、500 fps という高速フレームレートで画像をキャプチャしていく。真上からのライトで文章や画像などの情報をキャプチャし、レーザープロジェクタによってページの行や 3D 形状をキャプチャするとのこと。キャプチャされた変形ページから、平坦なページが再構築される。 ページを「めくる」というよりは「をパララっと素早く一通り開く」という動作で、毎分約 200 ページという高速スキャンを実現している。元記事の IEEE Spectrum の記事に動画がある。 研究者らは、将来的に小型化してスマートフォンなどに搭載できればと考えているそうだ。研究者の一人は

    nminoru
    nminoru 2010/03/19
    石川研やるな。
  • 1