今回の目的は、プロンプトを考えずに適当な画像を入力するだけで、それっぽい画像を生成するモデルを作ることです。そのために、画像分類モデルの出力をStable diffusionのUNetが理解できるように学習し、画像自体をプロンプトとして扱えるようにします。 ※自分の記事があまりにも面白すぎて冗長になってしまったので、太字部分だけ読んでもだいたい分かるようにしています。 ばっくぐらうんど哲学的問題:AIを使いこなせず無駄な労力を割く人間と、AIに頼って自分では何もできなくなった人間、どちらが猿に近いのだろうか? WD14-Taggerの登場により、danbooru由来のデータであろうがなかろうが、danbooruタグに基づく学習ができるようになりました。そのため、多くのアニメスタイルの画像が、danbooruタグを列挙したプロンプトを入力して作成されています。しかしWD14-Taggerの出