タグ

ocrに関するjksyのブックマーク (2)

  • tesstrain.sh で Tesseract-OCR の言語データをカスタマイズする - Qiita

    やりたいこと オープンソースのOCRエンジン、Tesseract-OCR の日語用言の言語データ(tessdata/jpn.traineddata)をカスタマイズする。 GitHubのWikiによると、必要な作業をコマンドでやる方法(Manual method)と、tesstrain.sh というシェルスクリプトを使う方法(Automated method)1が記載されている。というか前者を自動化したのが後者。公式Wikiを読めといえばそれまでですが、せっかくなのでまとめておきます。 TrainingTesseract · tesseract-ocr/tesseract Wiki · GitHub tesstrain.sh · tesseract-ocr/tesseract Wiki · GitHub 具体的には、 未対応フォントを学習させる(実在する書体が前提2) 未収録文字に対応させ

    tesstrain.sh で Tesseract-OCR の言語データをカスタマイズする - Qiita
    jksy
    jksy 2017/08/02
  • Pythonで日本語OCRを行うときのメモ - Qiita

    フリーのtesseractというOCRを使って、pythonで日語のOCRを行うまでに行った手順をまとめます。 環境 Ubuntu 14.04 Python 2.7 インストール tesseractをインストールします。 インストール方針 インストールの方法には、 1. apt-getでインストール 2. ソースからビルド、インストール の二つがあります。 1のapt-getでインストールできるバージョンは3.0.3です。 tesseractで日語を扱うには、日語で訓練されたデータ(jpn.traindata)が必要です。 これは自分でダウンロードしてくる必要があるのですが、ネット上で見つけられたものはver3.0.4のものだけです。3.03でこのデータを使おうとしても、うまくいかず、こんなエラーが出ます。 こちらのかたのように、traindataを編集して3.0.3で使うこともでき

    Pythonで日本語OCRを行うときのメモ - Qiita
  • 1