タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
生成AIの進歩はマジで早い。Stable Diffusion関連だけでも毎日のように新規手法が発表され、せっかく身につけたスキルも数週間後には完全に時代遅れのものになっていることも珍しくはない。 中でも、ここ最近もっとも注目されているのは「LCM」だろう。 LCMとはLatent Consistency Model(潜在一貫性モデル)の略で、大雑把に言えば「画質を多少犠牲にすることで信じられないほど高速化」する仕組みだ。 さらにStable Diffusion開発元の本家Stability.aiからも、LCMとは異なるが「SDXL Turbo」という高速モデルが発表された。果たしてどれほど早くなったのか、それぞれ検証してみることにする。 LCMってどういう仕組? とはいえこれだけでは少し雑すぎるので、もう少し詳しく説明しよう。 Stable DiffusionはLDM(潜在拡散モデル)とい
はじめに こんにちは。 一昨日、土日を1日潰してLatent Cosistency Model(LCM)の推論高速化に取り組んでみたところ、そこそこ上手くいき、512×512pxの画像をimage-to-image(img2img)するタスクにおいてRTX3090で26fps、A100で33fpsの推論速度が出るようになりました。 【追記】RTX4090だと45fps出たそうなので、記事のタイトルをわずかに更新しました。記事作成当時はA100で検証していたので、以下ご了承ください。 画像1枚につき0.03秒で処理できていることになるので、ほぼリアルタイムで変換できていると言ってもいいのではないでしょうか。 プログレスバーが1%進むごとに1枚の画像のimg2imgが完了しています。気持ちいいですね。 そこで、この記事では、当高速化に取り組んだとき経験的に(理論的にではない)得られた、LCM推
以下の記事が面白かったので、かるくまとめました。 ・SDXL in 4 steps with Latent Consistency LoRAs 1. はじめに「LCM」 (Latent Consistency Model) は、元モデルを別モデルに蒸留することで、画像生成に必要なステップ数を減らす手法です。25~50ステップかかっていた処理を4~8ステップで可能にします。 蒸留したモデルは、より小さくなるように設計される場合 (DistilBERT、Distil-Whisperなど)と、必要なステップ数が少なくなるように設計される場合があります。これは通常、膨大な量のデータ、忍耐力、少数のGPU を必要とし、時間とコストが必要でした。しかし、それも過去の話です。 11月9日 、「LCM」で蒸留したかのように「Stable Diffusion」「SDXL」を本質的に高速化できる新手法「LCM
今日の話題はこちら 最近話題のリアルタイムAIお絵描きを実際にやってみようという回です。 使用技術 今回はタイトル通りDiffusersとLCM-Loraを使います。 AIによって画像生成をリアルタイムで行いながら、お絵描き補助をするというツールは実は画像生成AIが出てきた初期の方にあったりするのですが、今回はLCMという技術を使うことで画像生成速度が大幅に向上したことで、ほぼリアルタイムに書いたものがAIによって高品質化されるという点が相違点になります。 LCM及びLCM-LoRAとは 今回肝となるLCMですが、正式名称はlatent-consistency-modelといいます。 LCMが出てきたのは2023/10/6に公表された画像生成の高速化技術で、ものすごく簡潔に説明すると、従来の画像生成AIが複数のステップを踏みながらノイズを徐々に除去して画像生成するところを、一発でノイズ画像
Last update 11-26-2023 ▼ 0. LCM LoRAを利用する簡単な方法 記事の本編よりも先に、LCM LoRAを体験する最も簡単な方法を紹介します。標準の利用方法については1.以降をご覧ください。 0-1. LCM LoRAをマージしたモデル LCM LoRAをマージしたStable Diffusionモデルが登場していて、これらを利用すればすぐに生成ができます。Sampling stepsとGFC Scaleをかなり下げる必要がありますので注意してください(steps=8程度、GFC=1~2)。また、LCM LoRAを指定するプロンプトを記入してはいけません。 なお、LCM Samplerは必須ではなく、Euler a、DPM++ 2S a Karras等を利用するのが良さそうです。LCM Samplerを利用したい場合は3.をご覧ください。 LCMモデルは、Civ
はじめてのランクルイベント 10月12~13日に開催された、第33回 ランドクルーザーズ・ミーティング(LCM)に参加してきました。 私のランクル70は今年購入したばかりなので、初めての参加になります。もう33回も続いている歴史の長い大会で、ずっと参加してみたかったのです。昨年の静岡県裾野市で行われた第32回大会ではランドクルーザーが800台も集まりました。 下記の記事を読むとランクルオーナーならずともテンションが上がるでしょう。 gazoo.com 今年は岡山県の蒜山高原で行われました。たまたま私の住んでいるところから近いので、数ヶ月前から予定を開けて、当日が楽しみで仕方ありませんでした。 悪天候での開催 皆さん御存知の通り、先週末は台風19号が通過しました。被害に合われた方々に、心よりお見舞い申し上げます。蒜山高原も台風の影響を受けて強い風と雨でしたが、予定通り開催されました。 蒜山高
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第20回目は、Stable Diffusion微調整モデルなどを高速化するツール「LCM-LoRA」、画像理解を得意とするオープンソース視覚言語モデル「CogVLM」をはじめとする、生成AI最新論文の概要5つをお届けします。 生成AI論文ピックアップStable Diffusion微調整モデルなどを高速化するツール「LCM-LoRA」 Hugging Faceらが開発 画像理解を得意とするオープンソース視覚言語モデル「CogVLM」 テキスト内容と画像内の物体とを細かく関連付けて対話できるモデル「GLaMM」 Googleらが開発 大規模言語モデルを低コストで効率よく
今週世間を賑わせている画像生成AIの話題で一番インパクトのある話題が 「Real-Time Latent Consistency Model」、通称「RT-LCM」だと思います。 "RT-LCM" Real-Time-Latent-Consistency-Model リアルタイムで潜在空間が一貫して動きます CUDAとPython、またはM1/M2/M3チップを搭載したMacでも動くようです HuggingFaceSpacesでのデモもありますhttps://t.co/T7AmuKNzTC pic.twitter.com/U0l2WX7u6p — AICU Inc. (@AICUai) November 1, 2023 このLCM関係の論文を調査していたらけっこう勉強になったので簡単に紹介しておきたいとおもいます。 この数日で、既にいろんなデモが出ているのですが、いちばん有名と思われるのが
!pip install -U diffusers transformers scipy ftfy accelerate LoRA modelのロード 今回はsafetensorsをダウンロードします。これはLoraとして指定すると数ステップで画像が生成できるようになります。 !wget -O LCM-LoRA.safetensors "https://civitai.com/api/download/models/225222?type=Model&format=SafeTensor" import torch from diffusers import StableDiffusionPipeline from diffusers import LCMScheduler # Load the model pipeline = StableDiffusionPipeline.from_pr
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く