Metaがテキストから音楽や音声を生成するAIを公開していました。 https://audiocraft.metademolab.com/ AudioGenが効果音とかを生成、MusicGenが音楽を生成ですね。 MetaのMusicGenに「90年代コムロJPOP」って言ったらそれぽいものが生成された、気がする。https://t.co/sbkgvF0kpP pic.twitter.com/Tuhd6j2g2T— きしだൠ(K1S) (@kis) 2023年8月4日 「90s J-POP like Komuro」というプロンプトで、それっぽい音楽をつくってくれました。 512トークンで10秒になります。MediumでGPU(RTX 4060 Ti)つかって生成に30秒くらいかな。 CPU(7世代i7)だとSmallで256トークンが80秒くらい。 Transformersの4.31.0に