You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
LoRA学習の技術は日進月歩ですが、その根本となる学習手法は初期の段階からほとんど変わっていません。今回は新しい学習手法を開発したので解説します。この技術ではコピー機学習で行っていた差分学習の所要時間を10~20分の1に短縮し、複数の画像セットの同時学習も可能とします。画像モデルだけでなく他の拡散モデル全般に応用できる可能性があります。 LoRA学習とコピー機学習法 まずはふつうの学習手法についておさらいしてみましょう。 伝統的な学習方法 ふつうのLoRA(モデルも同じ)学習過程では、ノイズを加えられた画像 ( $${x_t}$$ ) を U-Net (最近のモデルは DiT だったりしますが) に通して出てきた予測ノイズ ( $${\hat{\epsilon}_\theta(x_t, t)}$$ ) と、本来のノイズ ( $${\epsilon}$$ ) を比較します。$${L}$$を
注:本ページは執筆中のメモ段階です。 (情報が消える前にメモするのが目的なので、信憑性は担保できません。) なお'23/12月末を目処に、LCMがニュース&スレで常用されているようなら、「執筆中」を外す予定です。 迷って来た(または迷ってきた)人向け 君の手元におそらくあるLCM_LoRA_Weightsとかpytorch_lora_weightsとかの名前のついたファイルは「Dreamshaper-V7を短ステップ数で再現できるLoRA」である。古い情報では「LCMを導入したモデルが必要なので探してみよう」等書かれていることがあるが、その直後のLCM_LoRAの登場で不要となった(LoRAなので好きなモデルと併用できる)。そのファイルさえあればよい。ちなみにHash値が同じなら名前違っても同じファイルである。1個でいいよ。 Dreamshaperはわりと汎用的なモデルではあるが、特定のモ
ご存知の方も多いかも知れませんが、civitaiを見るとHunyuanVideoのLoRAが多数出ていました。 ものすごい勢いで、LoRAが増えている印象です。 今はHunyuanVideo界隈が熱い!!ようです。 ちなみにCivitaiのサイトでの表示方法については、右上のフィルターの部分からLoRAとHunyuanVideoを選択すると出てきます。 叡智でないものと叡智なものがありますが、一番上は叡智なものが出ています。世界の叡智力の高さを感じますね。 Huggingfaceを探してもいくつかLoRAを見かけます。 HunyuanVideoにLoRAを使用する方法は、モデルのみで付けるフローが公開されていました。 シード値を固定して評価をしてみました。 もちろん、叡智ではないLorRAです。叡智なものはおのおの試してみてください。 LoRAを公開しているサイトで、推奨プロンプトやトリガ
はじめにこの記事は、初めてStable DiffusionのLoRAを作成する方に向けた解説です。わかりづらかったらすみません。 この解説ではSDXLベースのAnimagine-XL-3.1で二次元イラストのキャラクターのLoRAを作成します。 注意すでにWebUIの環境構築と生成ができていて生成に慣れている前提のガイドとなります。 Windows向けのガイドです。 また、NVIDIAのGeForce RTXグラフィックボード(VRAM 8GB以上)が搭載された高性能なパソコンが必要です。 そもそもLoRAってなんぞや?Low-Rank Adaptationが正式名称です。 難しくいうと、ウェイトとデータセットの差分を出力するものです。低ランクの行列に分解してからファインチューンすることで少ないメモリで学習できるようにしたものです。 簡単に言えば、LoRAはキャラ、衣装、シチュエーションや
なぜ人は生成AIに学習されることに嫌悪感を抱くのか言語化してみる|リツ こちらを読んで書いてます 何が嫌なのかを再確認自分の個性・アイデンティティ、しかも自分ですら気がついてない無意識でやっていることまでもが、いつの間にか知らないうちに誰かに使用される。そのことに人間は恐怖する。この恐怖を勝手に「無意識の複製」とでも呼んでおこう。 よく、生成AIと写真・活版印刷は同じであると言っている人がいるが、写真や活版印刷はそっくりそのまま複製するものである。しかし、生成AIはそのままの複製ではない。無意識までもを複製する。 この文章とクローンの話をしていることから察するに 自分と同様の成果物を無限に生成されるのは恐怖だと言いたいのだと思う つまりは 自分が代替えされてしまうことへの恐怖かな 人間とAIの違い具体的な違いの説明はこの文章だと思う 自然人の学習は、完成品から原作者について様々な考察をしな
いろいろやるのが面倒でしたがhako-mikanさんが簡単にできるようにしてくれました。 精度高めるにはたくさんの画像があったほうが多分良いのですがただ試すには楽でいいですね (画像指定じゃなくてフォルダ指定でやるみたいなのも実装されたらよさそう) TrainTrain拡張をインストールしてTrainTrainタブを出現させます TrainTrainインストールDifference_Use2ndPassを選択して読み込みます Difference_Use2ndPass使うモデルを選択して、use gradient checkpointingにチェックを入れます モデル選択元、変化後の画像を一番下のところに追加します 追加前 追加後Start Trainingを押して待ちます 実行LoRA完成!背景がないキャラ上半身画像をエッジ画像にしたのでキャラだけが白くなるような面白い感じになりましたね
TrainTrainのLoRA作りについてチュートリアルを作ろうかと思っていたところで、AIに限り制限無く使用可能なキャラクター「デルタもん」が発表されました。大変素晴らしく面白い試みですね。早速デルタもんちゃんを例にしてLoRAを作ってみましょう。 デルタもんちゃん(-189)。ポケットに入れたふたつの物を融合させることができるらしい。入れる物の大きさに制限はあるのだろうか。人間の耳の他にケモ耳も備えるため、聴力には自信がありそうだ。プロフィールによると意外と重い使命を背負っているようである 提供されている画像は前後2枚だけなのでLoRAを作ろうとすると教師画像が足りません。この対処法はいくつかあります。まず2枚でLoRAを作り、LoRAを使って画像を生成して、うまく生成できた画像でもう一度学習をするという蒸留法です。これは852話氏が試しているようです。ほかにもKatsushiro K
LoRAってなんなのさ Microsoftが開発したAIの追加学習方式(Low-Rank Adaptation of Large Language Models)のこと。stable diffusionユーザーの間では追加学習したデータ方式として知られている。 ざっくり言うと モデルの他に追加の学習データを自分で作り、画像生成に利用できる夢の仕組み。 例えるならゲームのDLCみたいなもの。(厳密には従来とは違う学習システムの事を指すが、イラスト生成において用語が出てくる場合、LoRA=モデルに影響を与えるファイルの事だと思っていい) 作ったLoRAのファイルは比較的軽量なので、配布したり、他の人が配布しているLoRAを自分の画像生成に利用することもできます。 例えば「このモデルすごくキレイなイラスト出せるけど、あのポーズやあの絵柄は出せないんだよな…」みたいな悩みを解決できます。 導入はS
概要 sd-scriptsとは、kohya-ss氏*1及びそのcontributorsが作成したプログラムの1つ。 https://github.com/kohya-ss/sd-scripts LoRAツールとしての知名度 LoRAの学習用ツールとして有名。 sd-scriptsのリリース当時*2において、それ以外の学習環境といえばStable Diffusion web UIに実装された、embeddings(Textual Inversion)やHyperNetworkくらいだった。それらもそれなりに盛り上がりを見せたが、学習精度がやや低めであり、当時DreamBoothと呼ばれる高品質かつVRAM消費大の方式が存在したため、今一つ学習に対する敷居が高い状態だった。 一方、LoRAはそのVRAM消費量の少なさ*3と学習品質の高さ、データ容量の小ささから、2023/3月頃、スレ住人達が注
「Kohya’s GUI」とは?Stable Diffusionで使うさまざまな学習データの制作をサポートしてくれるツールです。 「Kohya S」氏の開発した「sd-scripts」をベースに「bmaltais」氏がGUIとして公開しています。 「sd-scripts」は全てをコマンドライン上で操作する為、扱う難易度が高いのですが、「Kohya’s GUI」は視覚的に理解できる部分も多く、lora制作では世界で一番使用されているツールだと思います。 この機能をうまく使いこなせると、V1.5、V2、SDLXで使う DreamBooth、U-NetおよびText Encoderの学習をサポート fine-tuning、同上 LoRAの学習をサポート 画像生成 モデル変換(Stable Diffision ckpt/safetensorsとDiffusersの相互変換) これらの学習データの生
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く