nminoruのブックマーク - はてなブックマーク

Tesseract 4.1にLSTMを使って日本語を再学習させる - Qiita
背景 TesseractはオープンソースのOCRエンジンです。バージョン4.0から深層学習を採用したことで認識精度が大きく上がりました。このTesseractを実務で使ってみて、苦手分野があることが分かりました。全角英数字半角カタカナ手書き文字今回はこの３つのうち最初の２つの認識精度を上げるため、Tesseractの日本語モデルを再学習させてみます。なお、手書き文字の再学習についてはTesseract 4.1にLSTMを使って手書き文字を再学習させるにまとめています。学習方法の選択 LSTMを使ったTesseractの学習方法には大きく分けて２つの方法があります。新規学習方式 (Training From Scratch)：ゼロからモデルを生成する微調整方式 (Fine Tuning)：既存のモデルから転移学習する新規学習方式は、より多くのイタレーションと学習データが必要
nminoru 2020/05/17
OCR
リンク
1

はてなブックマーク