はじめに Googleの文字認識エンジンTesseract 3.02での学習プロセスの備忘録。OSはMac OS X. jTessBoxEditorという、学習を省力化するツールを使ってみる。 題材として、デジタル時計や電卓のような文字を認識するための学習をする。文字は[0-9]と:に限定。 参考: TrainingTesseract3 - https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3 jTessBoxEditor - http://vietocr.sourceforge.net/training.html フォントの取得 まずは上述したようなフォントがないと始まらない。 http://www.trojanbear.net/s/category/font の7barSPというフォントを使う。 ダウンロードした