テキストの記述にしたがって高品質な画像を生成する「画像生成 AI」が話題です。DALL·E, DALL·E 2, Parti, Imagen など、研究ベースで多くの手法が発表されており、Craiyon, DALL·E 2, Stable Diffusion, Midjourney など、実際に一般消費者が使える AI 画像生成サービスも広く普及してきました。 本ブログでは、昨年の早い段階から、テキストからの画像生成に関連する研究・技術を何度か取り上げてきました。研究ベースでは以前から開発が進んでいましたが、去年の VQGAN+CLIP を皮切りに、オープンソースのモデルが多数開発され、臨界点を超えて普及が急速に進んだ感があります。 これまでに解説した画像生成技術については、以下の記事をご参考ください。 【論文速報】OpenAI の超高クオリティ画像生成モデル DALL·E の論文を解説今