ブックマーク / ascii.jp (7)

  • 画像生成AI、安いPCでも高速に 衝撃の「Stable Diffusion WebUI Forge」 (1/4)

    Stable Diffusion Forgeを表示した様子。基的な操作は既存のStable Diffusion WebUI AUTOMATIC1111とほぼ同じ 画像生成AI「Stable Diffusion」用の新しいユーザーインターフェース「Forge」が2月6日に登場しました。開発したのは、これまで「Controlnet」や「Fooocus」などStable Diffusion関連の様々な重要技術を開発してきたillyasviel(イリヤスベル)さん。何よりインパクトが大きいのは、グラフィックボードのVRAM容量が小さい安価なPCでも最新版のStable Diffusion XL(SDXL)が動かせることです。 RTX 40シリーズが求められたSDXL SDXLは、2023年8月にStablity AIが発表した画像生成AI。高画質な出力ができる一方、コミュニティーサイトで話題にな

    画像生成AI、安いPCでも高速に 衝撃の「Stable Diffusion WebUI Forge」 (1/4)
  • 画像生成AIが爆速で進化した2023年をまとめて振り返る (1/5)

    Stability AI画像生成AI「Stable Diffusion」を公開したのは2022年8月のこと。すさまじい勢いで発展してきた画像生成AIの1年を振り返ってみようと思います。 初めに見てもらいたいのは「これが無料でいいのか!? “爆速生成AI”がペイントソフトに革命を起こした」で紹介した、KritaとGenerative AI for Kritaを組み合わせて作成した設定資料的な画像です。 キャラクターの3面図のサンプル。Vroidで簡単な3Dで当たり(左)として、右の画像を作成する。それを元に、プロンプトや画像に描き込んだりして、最終画像を作成していく。2枚目には前面図の頭部のカチューシャや、胸部分のフリルがなかったりするが、そこに色を加筆して、プロンプトで指示すると、最終画像にそれが追加されるのをリアルタイムに確認しながら修正できる(筆者作成) Stable Diffusi

    画像生成AIが爆速で進化した2023年をまとめて振り返る (1/5)
  • これが無料でいいのか!? “爆速生成AI”がペイントソフトに革命を起こした (1/5)

    Generative AI for Kritaのライブペインティング機能を実行している画面。左が筆者が描いた落書き。右が、その画像を線画(Scribble)としてAI生成した画像 11月13日掲載の記事「爆速化する画像生成AI」で紹介した新技術「Latent Consistency Models(LCM)」が大爆発しています。これは画像生成AIに2度目の革命を起こした「ControlNet」に次ぐ大インパクトではないかと感じています。「LCM-LoRA」(LoRAはStable Diffusion用の追加学習モデル)が11月下旬に登場したことで、リアルタイム生成のAI機能を組み入れたサービスやアプリの開発が一気に進みました。 なかでも、筆者にとってインパクトが大きかったのが、ペイントソフト「Krita」向けに開発された「Generative AI for Krita」。Kritaはスウェー

    これが無料でいいのか!? “爆速生成AI”がペイントソフトに革命を起こした (1/5)
  • 画像生成AI「DALL·E 3」の性能が凄まじい。これを無料で使わせるマイクロソフトは本気で競合をつぶしに来ている (1/3)

    10月1日頃、OpenAIの新しい画像生成AI「DALL·E 3(ダリ3)」が徐々に使えるようになり、その性能の高さから話題になっています。まずサプライズで使えるようになったのがマイクロソフトのBingチャット。日語で「の画像を作ってください」などと入れるだけでかわいいの画像が出てくると。これが無料で使えるのは衝撃的です。マイクロソフトが巨大資で他の会社をつぶしに来たなという感じですね。どう考えても、今のところはサーバーコストが果てしなくかかる赤字サービスなのは間違いないので……。 「ラーメンべる女の子」が描ける! なにより衝撃的だったのは、「アニメ風の少女とが遊んでいる姿を作ってください」というリクエストに対し、一発で完璧な正解を出してきたことです。Stable Diffusionだと苦手とされていた指も適切に描写されています。もうひとつの着目点はオブジェクト間の関係性です

    画像生成AI「DALL·E 3」の性能が凄まじい。これを無料で使わせるマイクロソフトは本気で競合をつぶしに来ている (1/3)
  • 画像生成AIに2度目の革命を起こした「ControlNet」 (1/4)

    画像生成AIStableDiffusion」の進化が止まりません。昨年8月にオープンソースとしてリリースされてから、世界中のプロアマ問わず多数の人たちが様々な研究成果を反映させ、毎日と言っていいほど新機能を誰かが発表するという状況が起きています。 StableDiffusion登場当初は、画像の品質のランダム性が高く、構図やポーズなどを指定できないという弱点を抱えていました。1枚の画像をもとに画像を生成する「i2i(image2image)」である程度コントロールすることはできても、「キャラクターに特定のポーズをとらせる」といったことは非常に難しかったんですね。 その状況を一変させる新機能が今年2月に登場しました。その名も「ControlNet」。プロンプトによる制約を克服するための、とてつもないポテンシャルを持つ技術でした。Stable Diffusionに次ぐ「2度目の炸裂」と言って

    画像生成AIに2度目の革命を起こした「ControlNet」 (1/4)
  • リスニング能力をひたすら鍛え上げられるサイト「ELLLO 」

    PCやスマホを使って、英語学習を時短にする便利なサービスやツールなどを紹介する連載。今回は、初心者から上級者まで、幅広くリスニング能力を向上できる「ELLLO」をご紹介します。 ELLLOは、「English Listening Lesson Library Online」の略で、読んで字のごとく、英語のリスニング学習に特化したオンライン学習サイト。3000以上という多くの無料のレッスンが用意されており、幅広いレベルの学習者が利用できる。もともと、日英語教師だったTodd Beuckens氏が創設したサイトで、2004年にスタートしたサイトだ。 メインの学習コンテンツは、ひたすら英語の音声を聞くというもの。スクリプトも用意されているため、聞き取れなかった場合も内容は把握できる。理想的なのは、スクリプトを見なくても聞き取れるようになることだ。 メインコンテンツとなるリスニングレッスンは、

    リスニング能力をひたすら鍛え上げられるサイト「ELLLO 」
  • 科学と財布の限界を超え、初音ミクを“3次元”に (1/5)

    暗闇の中、1枚の透明なスクリーンに初音ミクが浮かんでいる。ちょっと手を伸ばせば、長い髪にもさわれそうだ。透明スクリーンの中から、“彼女”がこちらに出てきてくれている。妄想でも幻覚でもなく、最新の立体映像技術によって。 スクリーンに映像を出しているのは23台のプロジェクター。市販のビジネス用プロジェクターだ。特殊な合成処理を施した23枚のCGを、やはり特殊な加工を施したスクリーンに投影すると、映像の部分部分が重なり合い、あたかもそこに物の“ミクさん”がいるような映像が合成される※。 開発者は浜松市に住むAono.Yさん(25)。「Future Vision Projector」(FVP)と名付けられたこのシステムは、Aonoさん曰く「たぶん世界初」。複数台のプロジェクターを使った立体映像技術は以前からあったが、透明なスクリーンで、しかも理論ではなく実際に立体映像を映せたのは初めてという。

    科学と財布の限界を超え、初音ミクを“3次元”に (1/5)
    runand
    runand 2019/04/27
  • 1