はじめに こんにちは。 前置きが思いつかないので、突然本題に入ります。 Stable Diffusionをはじめとする、Latent Diffusion Model(以下LDM)の追加学習手法は、その登場以来様々なやり方が提案されてきました。 例えば、学習データの表現を語に埋め込み、txt2imgの結果を直感的に操作するTextual Inverisionや、学習データによってDenoising U-Netのパラメータを変換するDNNを挿入するHyperNetworksはその代表的な手法です。 しかし、どの手法にも良い点と悪い点があり、こちらが決定的に良い、ということはなく、追加学習によるアウトカムの良し悪しを決定する最も大事なことは変わりません。 それは、適切な学習データを用意することです。 しかし、適切な学習データとは何か?という話はなかなか簡単に済ませられる話ではなく、モデルやタスク
![[実装付き]Stable Diffusionの追加学習に適する画像を、VAEを利用して選別する](https://cdn-ak-scissors.b.st-hatena.com/image/square/9eb058f3cb8adacaecfcbbc04c3bda17c6d6186f/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--mlVSX3dX--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%25255B%2525E5%2525AE%25259F%2525E8%2525A3%252585%2525E4%2525BB%252598%2525E3%252581%25258D%25255DStable%252520Diffusion%2525E3%252581%2525AE%2525E8%2525BF%2525BD%2525E5%25258A%2525A0%2525E5%2525AD%2525A6%2525E7%2525BF%252592%2525E3%252581%2525AB%2525E9%252581%2525A9%2525E3%252581%252599%2525E3%252582%25258B%2525E7%252594%2525BB%2525E5%252583%25258F%2525E3%252582%252592%2525E3%252580%252581VAE%2525E3%252582%252592%2525E5%252588%2525A9%2525E7%252594%2525A8%2525E3%252581%252597%2525E3%252581%2525A6%2525E9%252581%2525B8%2525E5%252588%2525A5%2525E3%252581%252599%2525E3%252582%25258B%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3A%2525E5%25258B%252595%2525E8%2525A9%25259E%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzYzODRjMTUxOGYuanBlZw%3D%3D%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)