オープンソースのOCRエンジン(正確に言うとOCR用のライブラリ)、Tesseract OCRの開発状況ウォッチング、です。 しばらくメーリングリスト、GitHubのリポジトリからの通知をチェックできていなかった時期があるので見落としがあるかも。 2017年秋ごろに下書きして、途中で興味が他の方向に行ったりして放置しているうちに半年以上経っていたという。 今年の3月頃、「5月中にバージョン4.00をリリースしたい」という話が出ていた……。 3.0x系 バージョン 4.0系 バージョン4.0系の注意点と新しい言語別データ 書字系(script)別データについて Japanese.traineddataを使う場合の注意点 LSTMベースの認識エンジンの学習について 従来式の画像とboxファイルからの学習 マルチスレッド ABI 変更状況 ここ最近の新しい動きなど Docker テストデータ T