機械学習エンジニアの吉田です。今回は、LLM (Large Language Models) を活用して、機械学習モデルに必要なデータのアノテーション作業を効率化する取り組みについて紹介します。 なお、アノテーションにおけるLLMの利用に関しては、クラウドベンダー各社及び社内の法務確認のうえ進めています。この記事で登場するLLMがアノテーション用途で使えることを保証するわけではないのでご留意ください。 背景 LayerXで提供しているバクラクでは、帳票をアップロードするだけで支払金額や支払期日などを自動で読み取るOCRの機械学習モデルを開発しています。 このモデルのデータセットを作成するために、内製のアノテーション基盤を使って日々手作業でアノテーションを行っています。帳票の種類が多く、解釈が複数ある場合もあるため、アノテーション作業は簡単ではありません。モデルの推論結果やユーザーの入力値を