はじめに オープンソースのOCRとして手軽に試せるTesseractは、4.0になって認識制度が大幅に向上しているといいます。しかし、どうしても認識してくれない文字があります。一番困ったのが、会計の負数を意味する△マーク。AになったりΛになったり、とにかく△を知らない。 そんなわけで、知らない文字を知っている状態にするには、独自の学習をさせてやることが必要です。 tesstrain.sh で Tesseract-OCR の言語データをカスタマイズするを参考にさせてもらいました。 必要なファイルを取得 まずはTesseract本体と、言語データのlangdataプロジェクトを取得。 $ git clone git://github.com/tesseract-ocr/tesseract.git $ git clone git://github.com/tesseract-ocr/langda