エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Tesseract OCR - 八谷大岳の覚え書きブログ
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Tesseract OCR - 八谷大岳の覚え書きブログ
TesseractというOCRのオープンソースをインストールして動かしてみた。 Tesseractのアルゴリズムについ... TesseractというOCRのオープンソースをインストールして動かしてみた。 Tesseractのアルゴリズムについては、 以下のGoogleのRay Smith氏の論文にて述べられている。 http://www.cip.ifi.lmu.de/~langeh/test/2007%20-%20Smith%20-%20An%20Overview%20of%20the%20Tesseract%20OCR%20Engine.pdf 手順はざっくり以下のようになっているようだ。 アウトライン抽出:skew(歪み)検出により補正した画像に対し、直線検出を階層的に繰り返す アウトラインを用いた、テキスト反転、白地の上の黒字、黒地の上の白字などを判定 Blob抽出:ベースラインを見つけてテキストのラインを抽出し、A*アルゴリズムを用いて、chops(区切り)を検出することにより文字を抽出 文字単位の認識