1.はじめに 今回ご紹介するのは、音声と1枚の顔画像を使って、顔画像がまるで話しているような動画を作成するOne Shot Talking Faceという技術です。 *この論文は、2022.12に提出されました。 2.One Shot Talking Face とは? 下記が、One Shot Talking Faceの概略図です。まず、上段のAudio-visual Correlation Leraning(音声と画像の相関性学習)を行います。 特定話者の音声と顔のキーポイントの動きとの相関性をAudio-visual Correlation Transformer に学習させます。 学習後は、One-shot Generation(音声と一枚の顔画像から動画作成)を行います。音声と1枚の顔画像をAudio-visual Correlation Transformerに入力すると顔のキー