「M2UGen」の概要をまとめました。 1. M2UGen「M2UGen」は、テキスト・画像・動画からの音楽生成・音楽理解・音楽編集が可能です。 「音楽理解」には「MERT」、「画像理解」には「ViT」、「動画理解」には「ViViT」、「音楽生成」には「MusicGen」「AudioLDM2」を利用し、「アダプタ」や「LLaMA2」と組み合わせることで、複数の能力を持つモデルとなっています。 ・ホーム ・コード ・デモ 2. M2UGen のデータセット「MU-LLaMA」「MPT-7B-Chat」を使用して音楽指向のデータセットを、「BLIP画像キャプションモデル」「VideoMAEキャプションモデル」を使用してキャプションを生成します。 2-1. MUCapsデータセット21966曲、1273.78時間のキャプション生成のためのデータセットです。 ・音楽ファイル → MU-LLaMA