フリーのtesseractというOCRを使って、pythonで日本語のOCRを行うまでに行った手順をまとめます。 環境 Ubuntu 14.04 Python 2.7 インストール tesseractをインストールします。 インストール方針 インストールの方法には、 apt-getでインストール ソースからビルド、インストール の二つがあります。 1のapt-getでインストールできるバージョンは3.0.3です。 tesseractで日本語を扱うには、日本語で訓練されたデータ(jpn.traindata)が必要です。 これは自分でダウンロードしてくる必要があるのですが、ネット上で見つけられたものはver3.0.4のものだけです。3.03でこのデータを使おうとしても、うまくいかず、こんなエラーが出ます。