タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

tesseractに関するmuamqmのブックマーク (4)

  • tesseract で OCR 入門 - 俺の日記

    tesseract とは Googleで開発されているOCRエンジンです。(http://code.google.com/p/tesseract-ocr/) とある所要で数字画像の認識エンジンが欲しくなったので、使ってみました。 インストール ports で一発インストール。 # cd /usr/ports/graphics/tesseract/ # make instal clean Mac なら brewで一発インストール。 % brew install tesseract 使ってみる 今回は、数字に限定して認識したかったので、文字種を0-9だけにすることで認識率を上げてみます。 準備するもの 数字の写真 というわけで、とりあえず元素材をぱしゃり。 これを Preview の画像cropを使って、切り取ります。 number.jpg という名前で保存しました。 tiff に変換する 今

    tesseract で OCR 入門 - 俺の日記
  • Tesseract.js | Pure Javascript OCR for 100 Languages!

    Tesseract.js is a pure Javascript port of the popular Tesseract OCR engine. This library supports more than 100 languages, automatic text orientation and script detection, a simple interface for reading paragraph, word, and character bounding boxes. Tesseract.js can run either in a browser and on a server with NodeJS. Check out the Example code and API docs on GitHub.

  • tesseract-ocr の config を使ってみました。

    http://code.google.com/p/tesseract-ocr/ プロジェクトのサイトにあるように、元々HP社で開発されたOCRソフトで、現在はGoogleプロジェクトとしてメンテナンスされているようです。 今回はWindows版(win32, portable)をダウンロードして試してみました。 FAQはこちら(英語) 画像の中から認識したい文字列があらかじめ決まっている場合は、Configを利用すると良さそうです。 特にオプションを指定しないで実行すると、画像の中から文字のある領域をブロックとして切り出して、認識処理を行いますので多少複雑なレイアウトだと、かえって上手くいかない場合があります。 例えば、” -PSM 6″ というオプションを使うと、画像全体を1個のブロックと思って、そこからテキストの認識を行ってくれます。 さらに、” nobatch digits” という

    tesseract-ocr の config を使ってみました。
  • Tesseract-OCR 3.04 を試してみる - 今日も微速転進

    久しぶりに技術系の話題を。 オープンソースのOCRエンジン、Tesseract-OCRの新バージョンがリリースされているので試してみました。 比較対象は3.02.02。既存環境を破壊したくないので、対照実験になっていませんが勘弁してやってください。 開発元のwebサイトですが、GoogleCode から GitHubに移転しています。 tesseract-ocr · GitHub 準備など 比較条件 環境構築 Yosemite Arch Linux 認識対象データ 注意点 評価結果 (a) 3.02.02 (b) 3.02.02 + 日語向け設定 (c) 3.04 (d) 3.04 + 日語向け設定 (e) 3.04 + 最新言語辞書 その他 まとめ 参考URLなど 準備など 比較条件 手元の旧版(3.02.02)と簡単に認識結果を比較してみたいと思います。 ver. 3.02.02

    Tesseract-OCR 3.04 を試してみる - 今日も微速転進
  • 1