タグ

ブックマーク / zenn.dev/discus0434 (2)

  • GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか

    はじめに Googleが2025年3月14日に発表したGemini-2.0と、続けてOpenAIが2025年3月26日に発表したGPT-4oの画像生成能力は、これまでの画像生成AIでは到達しえないレベルの制御性・品質での画像生成を実現しました。 ここ1年半ほど画像生成AIいじりを仕事にしてきた者としては、これまで積み上げてきた成果や進捗がすべて無に帰すレベルでの進化が突然起き、巨人にすべてを蹴散らされたという感じです。別のスキルを身につけたほうがいいかな… しかし一方で、この進化は決して1日にして為されたものではなく、これまでの研究成果が地道に蓄積された結果です。記事では、その驚異的な画像生成能力、ひいてはAny-to-Anyの生成能力の裏にある技術的な背景を、分かる範囲でサクッと解説していきます。 これまでの画像生成AI TL;DR: これまで広く利用されてきた画像生成AIは、拡散モデ

    GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか
    pascal256
    pascal256 2025/03/28
  • とうとう現れたSDXLの後継?CogView4-6Bを解説する

    はじめに こんにちは。 最近、というかFlux.1以降、画像生成AIって大きな進化がない印象を受けませんか? というのも画像生成AIは、Stability AIが規模を縮小し、Vision系の生成AIの主戦場が動画生成AIに変わってからというもの、大量の資金が投下されることが少なくなってきています。 とはいえ、進歩がゼロというわけではなく、緩く進化を続けていて、NVIDIAのSanaや、Stability AIがSD3から大幅な改善を施したStable Diffusion 3.5シリーズなどは、Flux.1以降に登場してきていますし、研究レベルではVARやMARといった、拡散モデルと自己回帰モデルの融合のような新しい枠組みも生まれてきています。 しかし、研究レベルのものは実用に足りませんし、Flux.1以降の高性能なモデルには商用利用性に難があったり、そもそも追加学習をしにくい仕組みになっ

    とうとう現れたSDXLの後継?CogView4-6Bを解説する
    pascal256
    pascal256 2025/03/05
  • 1