ブックマーク / ascii.jp (9)

  • 画像生成AIで同じキャラクターが簡単に作れるようになってきた (1/3)

    画像生成AIサービスの「Midjourney」に3月12日、新機能「Creative Reference」が追加。1枚の画像から特徴を引き継いだ画像を生成できるようになり、同じキャラクターに別のポーズをとらせるなど様々な画像を作れるようになりました。これまで画像生成AI「Stable Diffusion」などで同じキャラクターの画像を作るには「LoRA」という追加学習をするのが一般的でしたが、それが必要ないため、キャラクターの再現が劇的に簡単になってきました。 画像1枚で“似た顔” Midjourneyの新機能「Creative Reference」 使い方は、MidjourneyのDiscordに画像をアップロードして、「Creative reference」のタグ(cref)をつけてプロンプトを入力するだけ。CW 0〜100までのパラメーターがあり、0だと顔だけが共通になり、あとは数字

    画像生成AIで同じキャラクターが簡単に作れるようになってきた (1/3)
    kazoo_keeper2
    kazoo_keeper2 2024/03/25
    動画の sora もそうだったけど、Diffusionモデルは骨格(構造)を理解するのが苦手なんだよね。原理的に。デッサンの訓練受けてないとエンジニアがそこに気付けないかも知れない。ダビンチとミケランジェロの特徴わかる?
  • 「100fps以上も可能」爆速すぎる画像生成AI技術、日本人研究者ら開発

    AITuber「しずく」開発者としても知られる、あき先生ことakio kodaira氏を筆頭にした研究グループは12月21日、リアルタイム画像生成を実現するために最適化されたパイプライン「StreamDiffusion」を発表。従来の画像生成パイプラインと比べて飛躍的な速度向上を実現している。 ノイズ除去をバッチ処理で高速化 「Stable Diffusion」をはじめとする画像生成AIモデルの高性能化は著しいが、メタバース、オンラインストリーミングなど高スループットと低レイテンシーが必要な環境ではまだ力不足だ。 StreamDiffusionは新しいアプローチを採用し、従来の連続的なノイズ除去をバッチ処理のプロセスに変換することで、高スループットストリームを実現。さらに、GPUの利用効率を向上させるため、従来の分類器フリーガイダンス(CFG)に代わり、残差分類器フリーガイダンス(RCFG

    「100fps以上も可能」爆速すぎる画像生成AI技術、日本人研究者ら開発
  • これが無料でいいのか!? “爆速生成AI”がペイントソフトに革命を起こした (1/5)

    Generative AI for Kritaのライブペインティング機能を実行している画面。左が筆者が描いた落書き。右が、その画像を線画(Scribble)としてAI生成した画像 11月13日掲載の記事「爆速化する画像生成AI」で紹介した新技術「Latent Consistency Models(LCM)」が大爆発しています。これは画像生成AIに2度目の革命を起こした「ControlNet」に次ぐ大インパクトではないかと感じています。「LCM-LoRA」(LoRAはStable Diffusion用の追加学習モデル)が11月下旬に登場したことで、リアルタイム生成のAI機能を組み入れたサービスやアプリの開発が一気に進みました。 なかでも、筆者にとってインパクトが大きかったのが、ペイントソフト「Krita」向けに開発された「Generative AI for Krita」。Kritaはスウェー

    これが無料でいいのか!? “爆速生成AI”がペイントソフトに革命を起こした (1/5)
  • 画像生成AI「DALL·E 3」の性能が凄まじい。これを無料で使わせるマイクロソフトは本気で競合をつぶしに来ている (1/3)

    10月1日頃、OpenAIの新しい画像生成AI「DALL·E 3(ダリ3)」が徐々に使えるようになり、その性能の高さから話題になっています。まずサプライズで使えるようになったのがマイクロソフトのBingチャット。日語で「の画像を作ってください」などと入れるだけでかわいいの画像が出てくると。これが無料で使えるのは衝撃的です。マイクロソフトが巨大資で他の会社をつぶしに来たなという感じですね。どう考えても、今のところはサーバーコストが果てしなくかかる赤字サービスなのは間違いないので……。 「ラーメンべる女の子」が描ける! なにより衝撃的だったのは、「アニメ風の少女とが遊んでいる姿を作ってください」というリクエストに対し、一発で完璧な正解を出してきたことです。Stable Diffusionだと苦手とされていた指も適切に描写されています。もうひとつの着目点はオブジェクト間の関係性です

    画像生成AI「DALL·E 3」の性能が凄まじい。これを無料で使わせるマイクロソフトは本気で競合をつぶしに来ている (1/3)
    kazoo_keeper2
    kazoo_keeper2 2023/10/16
    でも、相変わらず「手」は苦手なんだね。「構造」を理解せずに「絵 (画素)」として見てるから応用が利かないんだろうな。文章生成みたいに意味≒構造を理解せずに自然な表現に到達することは可能なんだろうか??
  • 世界を変えた画像生成AI、さらに進化「Stable Diffusion XL(SDXL)」いよいよ正式公開 (1/4)

    Stability AIは6月26日、画像生成AIの最新モデル「Stable Diffusion XL」を発表しました(「画像生成AI『Stable Diffusion』最高性能の新モデル『SDXL 0.9』一般的なPCで実行可能」)。パラメーター数がオリジナルのStable Diffusionの9億から23億へと大幅に拡大され、描写力が飛躍的に上昇したモデルです。正式版のSDXL 1.0が7月18日に公開予定とあり、あらためて注目されています。ベータ版にあたるSDXL 0.9は先行して、有料課金サービス「DreamStudio」と、Discordでの公開を開始していました。Discordでは1人無料で1回出力可能で、いまもリアルタイムで生成画像が見える状態です。その後SDXL 0.9は研究用に公開されて、ダウンロード可能になりました。 大きな違いは「2回生成する」こと SDXLがこれまで

    世界を変えた画像生成AI、さらに進化「Stable Diffusion XL(SDXL)」いよいよ正式公開 (1/4)
  • 画像生成AIに2度目の革命を起こした「ControlNet」 (1/4)

    画像生成AIStableDiffusion」の進化が止まりません。昨年8月にオープンソースとしてリリースされてから、世界中のプロアマ問わず多数の人たちが様々な研究成果を反映させ、毎日と言っていいほど新機能を誰かが発表するという状況が起きています。 StableDiffusion登場当初は、画像の品質のランダム性が高く、構図やポーズなどを指定できないという弱点を抱えていました。1枚の画像をもとに画像を生成する「i2i(image2image)」である程度コントロールすることはできても、「キャラクターに特定のポーズをとらせる」といったことは非常に難しかったんですね。 その状況を一変させる新機能が今年2月に登場しました。その名も「ControlNet」。プロンプトによる制約を克服するための、とてつもないポテンシャルを持つ技術でした。Stable Diffusionに次ぐ「2度目の炸裂」と言って

    画像生成AIに2度目の革命を起こした「ControlNet」 (1/4)
  • 「AIトレパク」が問題に (1/3)

    3DアバターVRMのスクショアプリ「VRM Posing Desktop」を使いVRMで画像(左)を作成後、Stable DiffusionのWebUIでimg2imgを行ってイラスト風の画像(右)を生成したもの。(画像:筆者作成) 画像生成AIの「img2img」が議論を起こしています。 img2imgとは、画像生成AIの機能の1つ「Image-to-Image」の略称。画像を読み込ませて、テキストで指定するプロンプトと合わせて画像生成すると、元となる画像のイメージを踏襲した画像を作ってくれるという機能です。 たとえば3DアバターVRMデータを読み込ませるだけでアニメ風の絵が生成されます。パラメーターの設定次第ですが、元のキャラクターの特徴もそのまま踏襲させることが可能です。元となる画像を用意することで、同じ顔つきのやポーズの画像が生成を容易にすることができるわけですね。 この原理を

    「AIトレパク」が問題に (1/3)
    kazoo_keeper2
    kazoo_keeper2 2023/01/26
    セルルック 3DCG アニメの「レンダラ」のような使い方ができるってことだね。美少女とか萌えの方向性だけじゃなくて、天野喜孝の水彩画風の CG アニメとかもできる筈だ
  • グーグル、高クオリティかつ高速なテキスト画像生成モデル「Muse」を発表

    グーグルは1月2日、従来のモデルよりも大幅に効率的でありながら、最先端の画像生成性能をもつテキスト画像AI生成モデル「Muse」を発表した。 競合モデルと同クオリティかつ超高速化 近年「Stable Diffusion」やOpenAIの「DALL-E 2」など、テキストから画像を生成するAIは驚くべき進化を見せている。グーグルもすでに「Imagen」と「Parti」という画像生成AIを発表しているが、「Muse」はそのどれとも異なる新しいモデルだ。

    グーグル、高クオリティかつ高速なテキスト画像生成モデル「Muse」を発表
    kazoo_keeper2
    kazoo_keeper2 2023/01/06
    ラテの画像は、テーブルの木目がいい具合に「スタイライズド」な感じになってて商業媒体で使いやすそう。ラテアートもリアル過ぎない(左の本物と比較してみ)のが良い
  • 画像生成AIの激変は序の口に過ぎない (1/4)

    画像生成AI「Stable Diffusion」がコンテンツ製作の技術革新を急速に促しているという話を「すさまじい勢いで世界を変えている画像生成AI」に書きました。あれから約2ヵ月が経ち、状況はさらに大きく変わってきています。 Novel AIソースコード流出事件 最も影響が大きかったのは10月8日に起きたとされる「Novel AI」のソースコード流出事件です。どういった形でハッキングされたのかは明らかにされていませんが、流出したとされるコードはおそらく物だという結論になっています。 Novel AIは10月3日にサービスが開始された画像生成AIサービス。Stable Diffusionや「Midjourney」と比べても圧倒的に高品質な日アニメ風の画像出力ができることにより、日やアジア圏で高い人気を得ています。 Googleトレンドの傾向を見てみても、日ではNovelAIがリリー

    画像生成AIの激変は序の口に過ぎない (1/4)
  • 1