はじめに スキャナーで取り込んだ書籍や,ダウンロードしてきた論文pdf等は,内部にテキストデータが保持されていません。よって,検索などの機能を使うことができず,不便な思いをすることがありました。 そこで,OCR(光学文字認識)エンジンであるTesseractを用いて,画像から文字の抽出を行い,それらの文字データをpdfに埋め込んだ形でpdfファイルに保存する方法を調べてみました。 大まかな手順は pdf から 画像形式(png or ppm)へ変換 画像ファイルに対し,tesseractを用いて文字認識,抽出,文字データの埋め込まれたpdfの作成 作成されたpdfファイル群を一つのpdfファイルにまとめる です。以下では,順に説明していきます。 0. tesseractのインストール と,その前に,tesseractのインストールを行います。Wikiにも書いてあることをそのまま書きます。詳