やりたいこと オープンソースのOCRエンジン、Tesseract-OCR の日本語用言の言語データ(tessdata/jpn.traineddata)をカスタマイズする。 GitHubのWikiによると、必要な作業をコマンドでやる方法(Manual method)と、tesstrain.sh というシェルスクリプトを使う方法(Automated method)1が記載されている。というか前者を自動化したのが後者。公式Wikiを読めといえばそれまでですが、せっかくなのでまとめておきます。 TrainingTesseract · tesseract-ocr/tesseract Wiki · GitHub tesstrain.sh · tesseract-ocr/tesseract Wiki · GitHub 具体的には、 未対応フォントを学習させる(実在する書体が前提2) 未収録文字に対応させ