2. 背景 お客様からたまに、携帯カメラで文字認識したいという相 談をうける。 AR的に認識した文字に合わせた動画や3次元モデルを 表示するなどをしたい。 特定物体認識では賞品のパッケージは認識できても、 個別の製品番号まで認識できない。 製品番号まで認識出来れば、より強力なマーケティングツー ルになる というわけで、何か使えるものがないか調べてた Tesseract OCR 4. Tesseract OCRとは? オープンソースのOCR(光学文字認識)エンジン 認識可能な言語 日本語含む、30ヶ国語以上 歴史 1984年-1994年 Hewlett Packard にて研究・開発 1995年 UNLV Accuracy Testでトップ3に入る 2005年 オープンソース化 現在のスポンサーはGoogle Google Booksで使う
Tesseract のホームページ: http://code.google.com/p/tesseract-ocr/ バージョンには 2.04 と 3.00 が存在するが,とりあえず今回は 3.00 を導入してみる. 必要なファイルのダウンロード http://code.google.com/p/tesseract-ocr/ から以下の3種類のファイルを落とす. tesseract-3.00.tar.gz eng.traineddata.gz jpn.traineddata.gz ここで eng.traineddata.gz は必須の言語データである. インストール for Ubuntu 11.04 手順は http://code.google.com/p/tesseract-ocr/wiki/ReadMe に書かれているとおり. 準備として各種パッケージを導入する. $ sudo apt
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く