タグ

画像認識に関するreponのブックマーク (5)

  • Tesseract-OCRの学習 - はだしの元さん

    2014-01-15 Tesseract-OCRの学習 Tesseract-OCRはHPが開発し現在はGoogleが公開しているオープンソースのOCRエンジンです。 オープンソースのOCRエンジン Tesseract-OCRでTesseeract-OCRで日語の読み込みまでは説明しました。今回はTesseract-OCRで機械学習を行い精度を向上させるための方法を説明します。 僕は基的に以下の公式のチュートリアルを読みながらやって行きました。Tesseract Training Wiki https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3大まかにやることは3つあります。 boxファイルの作成  trファイルの作成 トレーニングデータの作成 boxファイルの作成 まず学習したい画像ファイルを用意します。今回

    repon
    repon 2014/10/10
    学習させる方法
  • tesseract-ocrをMacで使ってみた | JProgramer

    OCRライブラリの一つであるtesseract-ocrをMacで使ってみました。 Homebrewのインストール tesseractをインストールする前に、Homebrewをインストールします。 HomebrewはMacへのインストールをかんたんにできるプログラムです。 >>Homebrewのページ コマンドプロンプトに ruby -e "$(curl -fsSL https://raw.github.com/Homebrew/homebrew/go/install)" とうち実行します。すると、インストールが実行されます。インストールされれば brew -v とすれば、バージョンが表示されます。 tesseract-ocrのインストールと実行 tesseract-ocrはコマンドプロンプトに brew install tesseract としてインストール完了です。 tesseract-

    repon
    repon 2014/10/10
    homebrewでインストール後、辞書の追加方法
  • Tesseractで数字に限定したフィールドを読み取る方法 - 森薫の日記

    2012-07-09 Tesseractで数字に限定したフィールドを読み取る方法 Tesseract 調査票の数字欄を読み取る処理を検討しています。Ubuntu 12.04にOCRopusをインストールしようとしたら、パッケージが提供されなくなっていたため、Tesseractをインストールしました。 $ sudo apt-get install tesseract 以下のようなサンプル画像を用意しました。読み取りのコマンドを実行します。 $ tesseract sample.tif aaa -psm 7 以下のような結果が得られました。 Il3‘f$'6'7 数字だけを読み取るようにホワイトリストを作成すれば、精度が上がる可能性があると考えられます。以下のように設定ファイルを作成しました。 tesseract.conf tessedit_char_whitelist 0123456789

    Tesseractで数字に限定したフィールドを読み取る方法 - 森薫の日記
    repon
    repon 2014/10/10
    ホワイトリストの作り方
  • ruby-tesseract を使う - schima.hatenablog.com

    このブログ、概して.NET Frameworkべったりでしたが、実はわたくし、Ruby歴の方が長いです。 初めてのRubyな記事を書きます。 フリーのOCRライブラリ「tesseract」をRubyから触れる「ruby-tesseract」の紹介です。環境はLinux(Debian/Ubuntu)とします。 https://github.com/meh/ruby-tesseract-ocr Tesseractの導入 抜けがあるかもしれません。 $ sudo apt-get update $ sudo apt-get install libtesseract3 libtesseract-dev tesseract-ocr 言語は必要に応じて。apt-cache search tesseract で調べると、いろいろな言語がずらずら出てきます。 $ sudo apt-get install t

    ruby-tesseract を使う - schima.hatenablog.com
  • rubyでOCR

    rubyで画像上の文字を取得するOCRをやってみした。 OCRのライブラリとしてtesseract-ocrを利用します。 なので、まずはtesseract-ocrを導入する必要があります。 環境は、CentOS6の場合です。 まず必要となるものをyumで入れておきます。 yum -y install autoconf automake libtool yum -y install libpng-devel libjpeg-devel libtiff-devel zlib-devel そしてLeptonica という画像解析ライブラリが必要なようなので、これをダウンロードしてコンパイルします。 wget http://leptonica.googlecode.com/files/leptonica-1.69.tar.gz tar xvzf leptonica-1.69.tar.gz cd l

    rubyでOCR
  • 1