最近、Transformerベースのdiffusion modelが高いパフォーマンス(ImageNetのFID)を出している。ということで、特に性能の高い最新モデルを2つ紹介する。加えて、これらを調査していたら、それらの性能をさらに底上げする手法とCNNベースでさらに高い性能を出してSOTAを達成したぞという論文にもさらに行き着いたので、それら2本も併せて追加で紹介する。 (追記)2024/2/23に発表されたStable Diffusion 3や2/15に発表されたOpenAIのSoraでは、今回紹介するDiTがDiffusion Transformer(拡散トランスフォーマー)のベース技術に採用されている。 ※以降の図は論文からそのまま引用、もしくはそれに多少の加工を加えたものとなる。 ※以降のpaperswithcodeの順位は2024/1時点 目次 DiT (ICCV'23):
![最新の高性能 Diffusion Models (2024年) - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/c19f80317291aefd6a989d437d69b765fb9be1a5/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9JUU2JTlDJTgwJUU2JTk2JUIwJUUzJTgxJUFFJUU5JUFCJTk4JUU2JTgwJUE3JUU4JTgzJUJEJTIwRGlmZnVzaW9uJTIwTW9kZWxzJTIwJUVGJUJDJTg4MjAyNCVFNSVCOSVCNCVFRiVCQyU4OSZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnR4dC1jbGlwPWVsbGlwc2lzJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9MzkwODgwZWFhNjUwMzdkODQzZTA5M2VjNTNmMWUzYzQ%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTcxNiZ0eHQ9JTQwc2FzZ2F3eSZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTMyJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9ZmFiYTdkZTUyYmNhMGQzY2UzNTI0YjE5MGZlMzZkY2M%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D5b9e55b843eecb1f3a4c482003b114fa)