
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Tesseract 4.1にLSTMを使って日本語を再学習させる - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Tesseract 4.1にLSTMを使って日本語を再学習させる - Qiita
背景 TesseractはオープンソースのOCRエンジンです。バージョン4.0から深層学習を採用したことで認識精... 背景 TesseractはオープンソースのOCRエンジンです。バージョン4.0から深層学習を採用したことで認識精度が大きく上がりました。このTesseractを実務で使ってみて、苦手分野があることが分かりました。 全角英数字 半角カタカナ 手書き文字 今回はこの3つのうち最初の2つの認識精度を上げるため、Tesseractの日本語モデルを再学習させてみます。 なお、手書き文字の再学習についてはTesseract 4.1にLSTMを使って手書き文字を再学習させるにまとめています。 学習方法の選択 LSTMを使ったTesseractの学習方法には大きく分けて2つの方法があります。 新規学習方式 (Training From Scratch):ゼロからモデルを生成する 微調整方式 (Fine Tuning):既存のモデルから転移学習する 新規学習方式は、より多くのイタレーションと学習データが必要