タグ

ブックマーク / hadashi-gensan.hatenablog.com (1)

  • Tesseract-OCRの学習 - はだしの元さん

    2014-01-15 Tesseract-OCRの学習 Tesseract-OCRはHPが開発し現在はGoogleが公開しているオープンソースのOCRエンジンです。 オープンソースのOCRエンジン Tesseract-OCRでTesseeract-OCRで日語の読み込みまでは説明しました。今回はTesseract-OCRで機械学習を行い精度を向上させるための方法を説明します。 僕は基的に以下の公式のチュートリアルを読みながらやって行きました。Tesseract Training Wiki https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3大まかにやることは3つあります。 boxファイルの作成  trファイルの作成 トレーニングデータの作成 boxファイルの作成 まず学習したい画像ファイルを用意します。今回

  • 1