タグ

aiとocrに関するmasterqのブックマーク (2)

  • スーパーのチラシをLLM含む様々な手法でOCRしてみた - Qiita

    Gemini 1.5 Pro(多数決、N=3)が最も高いPrecisionを示し、情報の信頼性が高いことが確認できました。 しかし、Recallの値が示すように、まだ情報の抜け漏れが存在し、チラシ読み取りの課題が残っています。 データ 今回対象とするのはスーパーのチラシの画像とします。 チラシの画像は公開データですが、念の為ぼかしを入れています。 ちなみにチラシデータは以下のサイトにまとまっているものから取得しました。 また正解データを作成するのが少し面倒なので、検証に使ったチラシ画像は1枚としました。 問題設定と評価観点 チラシの読み取りタスクにおいて、商品名と値段のペアが正しく取得できた場合を正答とします。 商品名の揺れについて完全に筆者の匙加減ですが、ある程度は許容することにしました。例えばマヨネーズとキューピーマヨネーズはどちらも同一商品としてみなしました。 モデルの精度指標は回答

    スーパーのチラシをLLM含む様々な手法でOCRしてみた - Qiita
    masterq
    masterq 2025/01/28
    "Gemini 1.5 Pro(多数決、N=3)が最も高いPrecisionを示し、情報の信頼性が高いことが確認できました。しかし、Recallの値が示すように、まだ情報の抜け漏れが存在し、チラシ読み取りの課題が残っています。"
  • http://amazarashi.me/ocr-google-cloud-vision-api/

    http://amazarashi.me/ocr-google-cloud-vision-api/
  • 1