環境 Windows 10 Python 3.7.1 (Anaconda3-2018.12-Windows-x86_64) PyOCR Tesseract-OCR 4.0.0 導入は以下の記事を参考にした。 PythonでOCR 画像整理ツール 個人的に拾い物画像をたくさん保存しているが、数が増えてくると整理が大変。 そこで、画像の中のテキストから、画像整理を支援するツールが作れないかと考えた。 例えば古のFirefoxのスクリーンショット 以下、同画像のOCR結果 1 Firefox Start て Goosle ウェブ イッージ ニュニス グルーブ ディレクトリ にミヌゴゴゴゴ ⑤ ウェブ全体から検索 〇日本語のページを検索 天 それなりに画像を特徴づける単語は取れている。 ただ、出力される文字列が若干間違っていてゴミ混じりなので、文章などの場合MeCabとかに食わせても全部ちゃんと認