paul_oguriのブックマーク / 2018年4月5日

paul_oguri id:paul_oguri

2018年4月5日のブックマーク (2件)

開発版のTesseract 4.0 alphaをためしてみる（macOS） - 今日も微速転進
この記事は開発中のアルファ版を対象にしてます。その点には十分注意してください。要するに自己責任でどうぞって話です*1。 github.com 微妙に出遅れている感じがありますが……。 11月中旬ごろからメイン開発者のRay Smith氏によるバージョン 4.x のコードがgithubにコミットされています。 2、3日前からで各言語のXXX.traineddataファイルもアップロードされており*2ひとまず試せる状態。まだ全ての言語が出揃っていませんが、英語などの主要言語はアップロードされているようです。日本語用の言語別のデータもアップロードされています。正式リリースがいつになるのかは不透明ですが、バージョン4.x の最大の特徴は今流行りのニューラルネットワーク技術の採用とのことです。要するに深層学習とか強化学習とか言ってるアレ。 Long short-term memory(LST
paul_oguri 2018/04/05
tesseract

ocr

Homebrew
リンク
Pythonで日本語OCRを行うときのメモ - Qiita
フリーのtesseractというOCRを使って、pythonで日本語のOCRを行うまでに行った手順をまとめます。環境 Ubuntu 14.04 Python 2.7 インストール tesseractをインストールします。インストール方針インストールの方法には、 1. apt-getでインストール 2. ソースからビルド、インストールの二つがあります。 1のapt-getでインストールできるバージョンは3.0.3です。 tesseractで日本語を扱うには、日本語で訓練されたデータ(jpn.traindata)が必要です。これは自分でダウンロードしてくる必要があるのですが、ネット上で見つけられたものはver3.0.4のものだけです。3.03でこのデータを使おうとしても、うまくいかず、こんなエラーが出ます。こちらのかたのように、traindataを編集して3.0.3で使うこともでき
paul_oguri 2018/04/05
python

tesseract

ocr
リンク
- 2018年4月6日
- 2018年4月5日
- 2018年4月4日