1 はじめに CX 事業本部 delivery部の平内(SIN)です。 一昔前まで、OCRによるテキスト化は、誤変換が多くて、なかなか実用が難しいというイメージがあったのですが、最近のAI-OCRは、日本語や手書きのものも結構な精度で読み取れるようになっています。 そして、モデルは、どんどん更新されているので、今後、ますます、精度は上がっていくでしょう。 今回は、AI-OCRを利用して、帳票をCSV化する作業を試してみました。 2 歪みの修正 FAXで受信した帳票は、やや斜めになったり、歪んでしまうことがあります。この状態では、帳票の枠組みを検出するのが難しいので、長方形になるように補正します。 修正の手順は、以下の通りです。 グレースケール変換 エッジ抽出 膨張処理 最大矩形検出 射影変換 最初にサンプルとなったFAXの画像です。 fax.png 罫線の検出を簡単しやすくするために、グレ