DonutはOCRを使わないend-to-endの文書理解モデルです。 Vision Encoder Decoder Modelになっており、OCRエンジンに依存せずに視覚的な文書分類や情報抽出を高い精度で行うことができます。 Donutは日本語を含む4言語で学習されたモデルnaver-clova-ix/donut-baseが公開されており、日本語で何かしたいときにファインチューニングして使えそうだなと思っていました。 今回、AIキャラクターと一緒にノベルゲームをプレイするために、ノベルゲーム風画面の合成データセットでdonut-baseをファインチューニングしました。 以下を目標として作成しました。 <unk>になる漢字をvocabに追加して学習する 選択肢、名前、メッセージを別々に認識し、jsonを出力する SKIP、LOADなどのUIの文字、日付表示などを読み取らない ルビを無視する
![end-to-endの文書画像認識モデルDonutをファインチューニングする|oshizo](https://cdn-ak-scissors.b.st-hatena.com/image/square/b42d1620c96c59efec30f5249068aeb26340a322/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F104609412%2Frectangle_large_type_2_597ba7c67a42b7824791a636790d3cff.png%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)