タグ

2018年4月5日のブックマーク (2件)

  • 開発版のTesseract 4.0 alphaをためしてみる(macOS) - 今日も微速転進

    この記事は開発中のアルファ版を対象にしてます。その点には十分注意してください。要するに自己責任でどうぞって話です*1。 github.com 微妙に出遅れている感じがありますが……。 11月中旬ごろからメイン開発者のRay Smith氏によるバージョン 4.x のコードがgithubにコミットされています。 2、3日前からで各言語のXXX.traineddataファイルもアップロードされており*2ひとまず試せる状態。 まだ全ての言語が出揃っていませんが、英語などの主要言語はアップロードされているようです。 日語用の言語別のデータもアップロードされています。 正式リリースがいつになるのかは不透明ですが、バージョン4.x の最大の特徴は今流行りのニューラルネットワーク技術の採用とのことです。 要するに深層学習とか強化学習とか言ってるアレ。 Long short-term memory(LST

  • Pythonで日本語OCRを行うときのメモ - Qiita

    フリーのtesseractというOCRを使って、pythonで日語のOCRを行うまでに行った手順をまとめます。 環境 Ubuntu 14.04 Python 2.7 インストール tesseractをインストールします。 インストール方針 インストールの方法には、 1. apt-getでインストール 2. ソースからビルド、インストール の二つがあります。 1のapt-getでインストールできるバージョンは3.0.3です。 tesseractで日語を扱うには、日語で訓練されたデータ(jpn.traindata)が必要です。 これは自分でダウンロードしてくる必要があるのですが、ネット上で見つけられたものはver3.0.4のものだけです。3.03でこのデータを使おうとしても、うまくいかず、こんなエラーが出ます。 こちらのかたのように、traindataを編集して3.0.3で使うこともでき

    Pythonで日本語OCRを行うときのメモ - Qiita