1. はじめに こんにちは。次世代システム研究室のK.X.Dです。 現在関わっているプロジェクトでは、契約書の請求書を審査する機能を実装しています。 ユーザーが効率的に請求書の審査情報を入力できるよう、アップロードされた請求書の画像ファイル(jpeg, png など)やPDFファイルから自動的にテキストを抽出する必要があります。 現状では、プロジェクトの基盤としてGCPを使用しており、GCPのCloud Vision APIを活用して以下のように実装しています。 Cloud Vision APIで請求書ファイルからテキストの全文を抽出 プログラミング言語でRegexを使用して該当項目を抽出 ただし、ユーザーがアップロードする請求書の形式が多様なため、定期的に精度を調整し、Regexの抽出パターンを増やしていく必要があります。 しかし、抽出パターンが増えるほど、Regexのロジックが複雑にな