簡単な記事なので前置きは省略します。 CLIPについて Stable Diffusionベースのモデルは、画像生成に際してテキストで条件づけを行う(a.k.a. txt2img)場合、CLIPという基盤モデルでテキストをベクトルに変換し、生成処理に渡しています。 つまり、入力したテキストをいかに的確に生成処理のモデルに伝えられるのかはCLIP(のようなテキストエンコーダー)の性能にかかっているわけですが、実はStable Diffusionに組み込まれているCLIPは、CLIPの中でも最強性能のものではありません。 適当に、画像のグラフに登場する点はそれぞれCLIPのバリアントで、上にあるモデルほど性能がいいと考えてください。 ここで、Stable Diffusion V1系に組み込まれているCLIPはL/14ですが、CLIPの中で最も性能の良いL/14@336pxに一歩遅れをとっているこ