テキサス大学オースティン校を中心とした研究チームが、訓練データにないタスクをこなすゼロショットでの音声編集や音声の合成ができるAIの「VoiceCraft」を発表しました。 VoiceCraft https://jasonppy.github.io/VoiceCraft_web/ 今回発表された「VoiceCraft」は、テキストと画像のマルチモーダルモデルから着想を得て、ゼロショットでのテキストから音声の出力(Text-to-Speech)や音声合成、音声の編集を可能にしたニューラルコーデック言語モデル(Neural Codec Language Models)です。 VoiceCraftは、非常に自然に音声を編集することができます。まず、以下はオリジナルの音声で、「but the renaissance broke their monopoly on knowledge, one of
![たった数秒の音声データから音声合成が可能な「VoiceCraft」](https://cdn-ak-scissors.b.st-hatena.com/image/square/8b05ec1445ba428101b7ce58e434d60eac3562b1/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2024%2F04%2F16%2Fvoicecraft%2F00.jpg)