Stable Diffusionの画像生成を画像によって条件づける方法をまとめていきます。といっても実装とかを全部見たわけではないので、多少間違っている部分もあるかもしれませんが、まあイメージはあってるっしょ。 手法の分類 画像の情報をUNetのどこに与えるかによって手法を分類します。とりあえず5つに分けてみました Cross Attentionに与える:Prompt Free Diffusion, PFG, IP-Adapter Self Attentionに与える:Reference only, FABRIC Time embeddingに与える:UnCLIP, Revision その他の場所に与える:ControlNet, GLIGEN, T2I-Adapter LoRAの重みを学習する:HyperDreambooth あれ・・?もしかしてこの時点でたいていの人は脱落ですか。この辺の