Tesseract とは? Tesseract は、オープンソースの OCR エンジンです。 「OCR」とは、画像ファイル中の文字を、テキストファイルとして読み込む技術のことです。 Tesseract は、コマンドラインのインターフェースを実装しているため、パソコンへインストールするだけで、OCR ができます。 Tesseract と Python で画像処理するメリットは?Tesseract を Python と組み合わせて利用すれば、画像を前処理してから Tesseract へ渡すことができます。 これにより、OCR の精度が向上し、Tesseract が読み取った文字列を任意の形に処理できます。 例えば、紙に印刷された文書も、Tesseract を利用すれば、テキストデータとして保管できるのです。 さて、今回は、Tesseractを使って、画像処理でOCRを試してみたいと思います!
![Python+Tesseractによる画像処理でOCRを試してみた! – 株式会社ライトコード](https://cdn-ak-scissors.b.st-hatena.com/image/square/feb83467a4763770ec892f99543282d333757fb1/height=288;version=1;width=512/https%3A%2F%2Frightcode.co.jp%2Fwp-content%2Fuploads%2F2020%2F06%2Fpython-tesseract-image-processing-ocr.png)