突飛なテキストからでも自然に高解像度な画像を生成することができるAIモデルの「Imagen」が発表されました。言語モデルのサイズを大きくすることでサンプルの忠実度と画像とテキストの整合性の両方が大幅に向上するそうです。 Imagen: Text-to-Image Diffusion Models https://gweb-research-imagen.appspot.com/ 「Imagen」の仕組みは以下の通り。まずはテキストエンコーダーのT5-XXLを用いることで単語の埋め込みを実行。続いてディフュージョンモデルを用いてテキストを64×64ピクセルの画像に変換。さらに、これを2度にわたり高解像度化のためのディフュージョンモデルにかけることで、最終的に1024×1024ピクセルの高解像度な画像を生成することができるようになっています。 実際にImagenがどのようなテキストからどのよう