タグ

ブックマーク / qiita.com/aki_abekawa (1)

  • Tesseract 4.1にLSTMを使って日本語を再学習させる - Qiita

    背景 TesseractはオープンソースのOCRエンジンです。バージョン4.0から深層学習を採用したことで認識精度が大きく上がりました。このTesseractを実務で使ってみて、苦手分野があることが分かりました。 全角英数字 半角カタカナ 手書き文字 今回はこの3つのうち最初の2つの認識精度を上げるため、Tesseractの日語モデルを再学習させてみます。 なお、手書き文字の再学習についてはTesseract 4.1にLSTMを使って手書き文字を再学習させるにまとめています。 学習方法の選択 LSTMを使ったTesseractの学習方法には大きく分けて2つの方法があります。 新規学習方式 (Training From Scratch):ゼロからモデルを生成する 微調整方式 (Fine Tuning):既存のモデルから転移学習する 新規学習方式は、より多くのイタレーションと学習データが必要

    Tesseract 4.1にLSTMを使って日本語を再学習させる - Qiita
    nminoru
    nminoru 2020/05/17
  • 1