[B! OCR] jksyのブックマーク

jksy id:jksy

OCRに関するjksyのブックマーク (2)

tesstrain.sh で Tesseract-OCR の言語データをカスタマイズする - Qiita
やりたいことオープンソースのOCRエンジン、Tesseract-OCR の日本語用言の言語データ（tessdata/jpn.traineddata）をカスタマイズする。 GitHubのWikiによると、必要な作業をコマンドでやる方法（Manual method）と、tesstrain.sh というシェルスクリプトを使う方法（Automated method）1が記載されている。というか前者を自動化したのが後者。公式Wikiを読めといえばそれまでですが、せっかくなのでまとめておきます。 TrainingTesseract · tesseract-ocr/tesseract Wiki · GitHub tesstrain.sh · tesseract-ocr/tesseract Wiki · GitHub 具体的には、未対応フォントを学習させる（実在する書体が前提2）未収録文字に対応させ
jksy 2017/08/02
OCR
リンク
Pythonで日本語OCRを行うときのメモ - Qiita
フリーのtesseractというOCRを使って、pythonで日本語のOCRを行うまでに行った手順をまとめます。環境 Ubuntu 14.04 Python 2.7 インストール tesseractをインストールします。インストール方針インストールの方法には、 apt-getでインストールソースからビルド、インストールの二つがあります。 1のapt-getでインストールできるバージョンは3.0.3です。 tesseractで日本語を扱うには、日本語で訓練されたデータ(jpn.traindata)が必要です。これは自分でダウンロードしてくる必要があるのですが、ネット上で見つけられたものはver3.0.4のものだけです。3.03でこのデータを使おうとしても、うまくいかず、こんなエラーが出ます。
jksy 2017/04/21
あとで読む

ocr

python
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx