タグ

画像と自然言語処理に関するdeejayrokaのブックマーク (2)

  • M2UGen の概要|npaka

    「M2UGen」の概要をまとめました。 1. M2UGen「M2UGen」は、テキスト・画像・動画からの音楽生成・音楽理解・音楽編集が可能です。 「音楽理解」には「MERT」、「画像理解」には「ViT」、「動画理解」には「ViViT」、「音楽生成」には「MusicGen」「AudioLDM2」を利用し、「アダプタ」や「LLaMA2」と組み合わせることで、複数の能力を持つモデルとなっています。 ・ホーム ・コード ・デモ 2. M2UGen のデータセット「MU-LLaMA」「MPT-7B-Chat」を使用して音楽指向のデータセットを、「BLIP画像キャプションモデル」「VideoMAEキャプションモデル」を使用してキャプションを生成します。 2-1. MUCapsデータセット21966曲、1273.78時間のキャプション生成のためのデータセットです。 ・音楽ファイル → MU-LLaMA

    M2UGen の概要|npaka
  • 誰もが知っておくべき画像生成AI「Stable Diffusion」の仕組みと使い方

    誰もが知っておくべき画像生成AI「Stable Diffusion」の仕組みと使い方:Stable Diffusion入門 Stable Diffusionの概要と基的な仕組み、それを簡単に使うための公式なWebサービスである「DreamStudio」を紹介し、Stable Diffusionで画像生成する際に行われていることについて駆け足で見ていきましょう。 連載目次 今、画像生成AIが「革命」と言えるほど盛り上がっているのをご存じでしょうか。2022年8月前後 からDALL・E 2(ダリ・ツー)やImagen(イマジェン)、それからもちろんMidjourney(ミッドジャーニー)など、多数の画像生成AIが登場し、世の中を騒然とさせていました。が、それらを一足飛びで追い越して多くの人が熱中しているのがStable Diffusion(ステーブルディフュージョン)です。最初はSNSで大

    誰もが知っておくべき画像生成AI「Stable Diffusion」の仕組みと使い方
    deejayroka
    deejayroka 2022/09/16
    “ Stable Diffusionが提供する訓練済みモデルを使って画像を生成する際には、今述べたようにVAE(のデコーダー)やU-Net、テキストエンコーダー(トークナイザーとエンコーダー)が使われます。これらを図にまとめたものが
  • 1