タグ

ブックマーク / note.com/gcem156 (3)

  • Stable Diffusion学習の歴史|gcem156

    完全に自分目線の歴史です。時系列は適当なこともあるよ。 2022/8 モデルが公開されましたが、学習を始めた人は一部だけでしょう。 Stable Diffusionリリース 22日 これまでの画像生成AIと違いモデルがオープンになったことで、誰でも自由に学習できるようになりました。StabilityAIが公開したコードには学習コードも含まれていたので、技術力さえあればこの時点で学習できたのかな。コードやモデルファイルはStabilityAIによるコードと、HuggingfaceのDiffusersライブラリの二つに分かれており、今でも混乱の原因になっている気がします。 Textual Inversion論文自体はStable Diffusionの公開直前くらいに出たもののようですね。学習方法として最初に流行った方法で、27日には日語記事が出てますね。はやい。 この頃はStabilityA

    Stable Diffusion学習の歴史|gcem156
    mieki256
    mieki256 2024/02/16
  • Token MergingによるStable Diffusionの高速化について|gcem156

    Stable Diffusionの高速化手法で、最近webuiでも実装されたToken Merging、通称ToMeについて説明していきます。 概要 画像生成中に画像の似ているピクセル同士をマージすることで高速化します。トークンマージングという言葉だけでみると、Stable Diffusionを楽しんでおられるであろう諸兄は、プロンプトのトークンをマージするのかな?と思ってしまうと思いますが、実際にはプロンプトは関係ありません。なぜピクセルのことをトークンと呼んでいるかというと、画像をまるで文章かのように扱うモデルで使われる手法だからです。Vision Transformerというモデルでは画像をグリッド状に分割して、それぞれのグリッドをトークン(単語)とすることで言語モデルで使われるTransformer(ChatGPTのTですね)に似た計算ができるようにしたものです。Stable Di

    Token MergingによるStable Diffusionの高速化について|gcem156
  • Stable Diffusionの生成設定まとめ|gcem156

    前回学習設定の記事を書きましたが、しょうもないネタ画像を作るのが面白かったので、生成についても書いていきます。WebUIにある機能を中心に書きますが、実装をみないでフィーリングで理解してる部分もあります。 生成過程について Stable-Diffusionは拡散モデルというもので、完全なノイズからノイズを除去していって画像を生成するとかいいますね。ざっくりと以下のような図で表されます。 一般的な設定 生成法によらない設定から紹介していきます。 解像度Stable-Diffusionの世界の掛け算九九 解像度自体は説明しなくても分かると思いますが、WebUIでは8の倍数の画像しか生成できません。これはVAEが潜在変数を8倍するからです。なんとなく8の倍数以外も生成できるようにするスクリプトを作ってみましたが、どうしても8の倍数以外を生成したいなら、できた画像をちょっと拡大縮小すればいいだけな

    Stable Diffusionの生成設定まとめ|gcem156
  • 1