エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models
1Zhejiang University 2Peking University 3Speech & Audio Team, ByteDance AI Lab *Equal Contributio... 1Zhejiang University 2Peking University 3Speech & Audio Team, ByteDance AI Lab *Equal Contribution Abstract Large-scale multimodal generative modeling has created milestones in text-to-image and text-to-video generation. Its application to audio still lags behind due to two main reasons: the lack of large-scale datasets with high-quality text-audio pairs, and the complexity of modeling long contin