タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

tesseractとpsmに関するkoma_gのブックマーク (2)

  • Tuning Tesseract OCR

  • 画像から文字抽出(ImageMagick Tesseractの利用)

    はじめにおはようございます。当ブログにアクセス頂き、ありがとうございます。 スクワットのフォームが悪くて、膝を少し痛めてしまった、たなけんです。 エントリではClojureを用いてシェルを操作し、画像データを加工し、必要となる文字列を抽出する方法を記載します。 事の発端大学院の授業でシュミレーションゲームを行っており、そのデータをClojureを用いて分析していることを、以前の記事で紹介しました。 その後、あるチームメイトから「このpdfファイルのデータも使えない?」と聞かれ、『pdfなら文字情報を抽出するのも簡単だし、問題ない』と考え、二つ返事でデータの抽出を引き受けたのが、今回の事の発端です。 以前、利用したデータはcvs形式だったので、データ読み取りに何の工夫も必要ありませんでした。今回も、xpdfなど既存のソフトウェアを使えば、文字情報が簡単に取り出せると考えていたのですが、意外

  • 1