PHPでPDFファイルからOCR処理をしてみる - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/aozora0000

7 usersがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

PHPでPDFファイルからOCR処理をしてみる - Qiita

雛形に沿ったPDFファイルを読み込んで、特定の場所の文字列を文字認識で取得する。というアプリケーシ... 雛形に沿ったPDFファイルを読み込んで、特定の場所の文字列を文字認識で取得する。というアプリケーションを作りたかったので、忘備録代わりに。普通にググるとImageMagick+GhostScriptが大多数でした。一度試してみましたが、OCR処理を通すために必要な解像度まで上げるとCPUが悲鳴を上げます。今回はWebサービスへの組み込みも考えているので、もっと軽量にしたい・・・なので、LinuxコンソールアプリのpdfimagesとGoogleオープンソースOCRエンジンのTesseract-OCRを組み合わせてみました。環境 centos6 php composer imagemagick pdfimages Tesseract-OCR 準備 yum install imagemagick-devel poppler-utils tesseract-devel //要epel

PDF
PHP

ブックマークしたユーザー

tmysz2022/06/15
yuhei_kagaya2019/11/13
mcddx302017/06/29
Kenji_s2016/04/05

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx