はじめにこの記事は、初めてStable DiffusionのLoRAを作成する方に向けた解説です。わかりづらかったらすみません。 この解説ではSDXLベースのAnimagine-XL-3.1で二次元イラストのキャラクターのLoRAを作成します。 注意すでにWebUIの環境構築と生成ができていて生成に慣れている前提のガイドとなります。 Windows向けのガイドです。 また、NVIDIAのGeForce RTXグラフィックボード(VRAM 8GB以上)が搭載された高性能なパソコンが必要です。 そもそもLoRAってなんぞや?Low-Rank Adaptationが正式名称です。 難しくいうと、ウェイトとデータセットの差分を出力するものです。低ランクの行列に分解してからファインチューンすることで少ないメモリで学習できるようにしたものです。 簡単に言えば、LoRAはキャラ、衣装、シチュエーションや
なぜ人は生成AIに学習されることに嫌悪感を抱くのか言語化してみる|リツ こちらを読んで書いてます 何が嫌なのかを再確認自分の個性・アイデンティティ、しかも自分ですら気がついてない無意識でやっていることまでもが、いつの間にか知らないうちに誰かに使用される。そのことに人間は恐怖する。この恐怖を勝手に「無意識の複製」とでも呼んでおこう。 よく、生成AIと写真・活版印刷は同じであると言っている人がいるが、写真や活版印刷はそっくりそのまま複製するものである。しかし、生成AIはそのままの複製ではない。無意識までもを複製する。 この文章とクローンの話をしていることから察するに 自分と同様の成果物を無限に生成されるのは恐怖だと言いたいのだと思う つまりは 自分が代替えされてしまうことへの恐怖かな 人間とAIの違い具体的な違いの説明はこの文章だと思う 自然人の学習は、完成品から原作者について様々な考察をしな
いろいろやるのが面倒でしたがhako-mikanさんが簡単にできるようにしてくれました。 精度高めるにはたくさんの画像があったほうが多分良いのですがただ試すには楽でいいですね (画像指定じゃなくてフォルダ指定でやるみたいなのも実装されたらよさそう) TrainTrain拡張をインストールしてTrainTrainタブを出現させます TrainTrainインストールDifference_Use2ndPassを選択して読み込みます Difference_Use2ndPass使うモデルを選択して、use gradient checkpointingにチェックを入れます モデル選択元、変化後の画像を一番下のところに追加します 追加前 追加後Start Trainingを押して待ちます 実行LoRA完成!背景がないキャラ上半身画像をエッジ画像にしたのでキャラだけが白くなるような面白い感じになりましたね
TrainTrainのLoRA作りについてチュートリアルを作ろうかと思っていたところで、AIに限り制限無く使用可能なキャラクター「デルタもん」が発表されました。大変素晴らしく面白い試みですね。早速デルタもんちゃんを例にしてLoRAを作ってみましょう。 デルタもんちゃん(-189)。ポケットに入れたふたつの物を融合させることができるらしい。入れる物の大きさに制限はあるのだろうか。人間の耳の他にケモ耳も備えるため、聴力には自信がありそうだ。プロフィールによると意外と重い使命を背負っているようである 提供されている画像は前後2枚だけなのでLoRAを作ろうとすると教師画像が足りません。この対処法はいくつかあります。まず2枚でLoRAを作り、LoRAを使って画像を生成して、うまく生成できた画像でもう一度学習をするという蒸留法です。これは852話氏が試しているようです。ほかにもKatsushiro K
LoRAってなんなのさ Microsoftが開発したAIの追加学習方式(Low-Rank Adaptation of Large Language Models)のこと。stable diffusionユーザーの間では追加学習したデータ方式として知られている。 ざっくり言うと、 モデルの他に追加の学習データを自分で作り、画像生成に利用できる夢の仕組み。 例えるならゲームのDLCみたいなもの。 作ったLoRAのファイルは比較的軽量なので、配布したり、他の人が配布しているLoRAを自分の画像生成に利用することもできます。 例えば「このモデルすごくキレイなイラスト出せるけど、あのポーズやあの絵柄は出せないんだよな…」みたいな悩みを解決できます。 導入はStable Diffusion web UIよりちょっとだけ難しいかもしれないが、よーく読めば誰でもできるはず。レッツチャレンジ。 LoRAの特
概要 sd-scriptsとは、kohya-ss氏*1及びそのcontributorsが作成したプログラムの1つ。 https://github.com/kohya-ss/sd-scripts LoRAツールとしての知名度 LoRAの学習用ツールとして有名。 sd-scriptsのリリース当時*2において、それ以外の学習環境といえばStable Diffusion web UIに実装された、embeddings(Textual Inversion)やHyperNetworkくらいだった。それらもそれなりに盛り上がりを見せたが、学習精度がやや低めであり、当時DreamBoothと呼ばれる高品質かつVRAM消費大の方式が存在したため、今一つ学習に対する敷居が高い状態だった。 一方、LoRAはそのVRAM消費量の少なさ*3と学習品質の高さ、データ容量の小ささから、2023/3月頃、スレ住人達が注
「Kohya’s GUI」とは?Stable Diffusionで使うさまざまな学習データの制作をサポートしてくれるツールです。 「Kohya S」氏の開発した「sd-scripts」をベースに「bmaltais」氏がGUIとして公開しています。 「sd-scripts」は全てをコマンドライン上で操作する為、扱う難易度が高いのですが、「Kohya’s GUI」は視覚的に理解できる部分も多く、lora制作では世界で一番使用されているツールだと思います。 この機能をうまく使いこなせると、V1.5、V2、SDLXで使う DreamBooth、U-NetおよびText Encoderの学習をサポート fine-tuning、同上 LoRAの学習をサポート 画像生成 モデル変換(Stable Diffision ckpt/safetensorsとDiffusersの相互変換) これらの学習データの生
最近、とりにく氏(@tori29umai)の依頼受けてコピー機学習法使ってとりにく氏の自分絵LoRAを作ったり、そのLoRAの作り方とかを教えてたのですよ その際、説明用にPDF作って渡したら、読んだとりにく氏曰くコレは是非とも世間に公開すべきものであるとこと それで、OKじゃあ公開しちゃいましょうってなったのでnoteでPDF公開という流れでございます 内容的には、コピー機学習法で自分絵LoRAを作るための方法について色々と、あとは学習時の設定について(コマンドとか)の質問あったのでその辺ちょろっと 一応、そんなに難しい内容じゃないとは思ってるんだけど よくわかんなかったら、コピー機LoRA学習についてググるか、私が以前書いたこの辺の記事とか読んでみてね
やっぱり同じLoraを2回入れると効果が高くなる気がする 強度1を1回じゃなくて、強度0.3を2回入れるみたいな感じ まだ研究が進んでないからなんとも言えないけどね — あいおえおえかきの (@NovelAIoekaki) December 9, 2023 このことは前々から気付いてはいましたが、新しいモデルを調整している時にはっきりと分かりました。 今回目指しているのはフラットなイラスト風のモデルなんですけど、指がね・・・結構破綻するんですよ。 ↓ 指がやばい。イラスト系モデルあるあるですね。 それを解決するために有効なのが「Hipoly 3D Model LoRA」というLoraを顔以外に適用することで、指を安定させるという方法。 これ自体は色んな方が知っていると思います。私も他の人の記事で見ただけなので。 ↓ 1girl, room,<lora:hipoly_3dcg_v7-epoc
TL;DR: X-Adapter enable plugins pretrained on old version (e.g. SD1.5) directly work with the upgraded Model (e.g., SDXL) without further retraining We introduce X-Adapter, a universal upgrader to enable the pretrained plug-and-play modules (e.g., ControlNet, LoRA) to work directly with the upgraded text-to-image diffusion model (e.g., SD-XL) without further retraining. We achieve this goal by tra
学習や生成をいろいろ試して分かったことをまとめます。 LCM-LoRAとは ただのLoRAです。サンプラーが変わったりCFG_scaleが1に近い値を設定しないといけなかったりとちょっと特殊ですが、結局LoRAであることは変わりません。 サンプラーについてLCMサンプラーは意外と直感的に理解できます。Euler ancestralの究極版みたいな感じです。 以下は1ステップ分の図です。左の完全なノイズから、右の完全な画像までを目指していくイメージで図式化しています。 Euler法はノイズ予測に基づき一直線でノイズ除去をします。一方ancestralでは多めにノイズ除去をした後ランダムなノイズを付与します。LCMは完全な画像になるまでノイズ除去をし、その後ランダムなノイズを付与して目標の状態を得ます。 ということで既存のサンプラーとそこまで挙動は変わりません。実はLCMでないモデルをLCMサ
はじめに こんにちは。 一昨日、土日を1日潰してLatent Cosistency Model(LCM)の推論高速化に取り組んでみたところ、そこそこ上手くいき、512×512pxの画像をimage-to-image(img2img)するタスクにおいてRTX3090で26fps、A100で33fpsの推論速度が出るようになりました。 【追記】RTX4090だと45fps出たそうなので、記事のタイトルをわずかに更新しました。記事作成当時はA100で検証していたので、以下ご了承ください。 画像1枚につき0.03秒で処理できていることになるので、ほぼリアルタイムで変換できていると言ってもいいのではないでしょうか。 プログレスバーが1%進むごとに1枚の画像のimg2imgが完了しています。気持ちいいですね。 そこで、この記事では、当高速化に取り組んだとき経験的に(理論的にではない)得られた、LCM推
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く