1.はじめに 今回ご紹介するのは、昨年11月にアリババが発表した、1枚の画像から動画を生成する「Animate Anyone」という技術です。 *この論文は、2023.12に提出されました。 2.Animate Anyoneとは? 下記がAnimate Anyoneのフロー図です。 まず、Pose SequenceをPose Guiderでエンコードし、Noiseと融合し、 Denoising UNet がビデオ生成のためのノイズ除去プロセスを実行します。 Denoising UNetの計算ブロックは、右側の破線のボックスに示すように、空間アテンション、クロスアテンション、および時間アテンションで構成されます。 参照画像の統合には 2 つの側面が含まれます。 まず、ReferenceNet を通じて詳細な特徴が抽出され、空間アテンションに利用されます。 次に、クロスアテンション用の CLI
![Animate Anyoneで、1枚の画像から動画を生成する](https://cdn-ak-scissors.b.st-hatena.com/image/square/e34cdac8ebb0b1ec5d4320b0c1f8edcab20db51c/height=288;version=1;width=512/http%3A%2F%2Fcedro3.com%2Fwp-content%2Fuploads%2F2024%2F01%2F221.jpg)