環境 Windows 10 Python 3.7.1 (Anaconda3-2018.12-Windows-x86_64) PyOCR Tesseract-OCR 4.0.0 導入は以下の記事を参考にした。 PythonでOCR 画像整理ツール 個人的に拾い物画像をたくさん保存しているが、数が増えてくると整理が大変。 そこで、画像の中のテキストから、画像整理を支援するツールが作れないかと考えた。 例えば古のFirefoxのスクリーンショット 以下、同画像のOCR結果 それなりに画像を特徴づける単語は取れている。 ただ、出力される文字列が若干間違っていてゴミ混じりなので、文章などの場合MeCabとかに食わせても全部ちゃんと認識するのか不安な状態 (そもそも自分は自然言語処理自体が専門分野ではないので、MeCab使いこなせそうにないが…) 粗削りな方法だが、OCR結果の文章に登録単語が含まれる