2023年1月5日にMicrosoftが新しい音声合成AIモデル「VALL-E」を発表しました。VALL-Eはたった3秒間の音声サンプルで人の声を忠実にシミュレートできる他、一度学習したデータからは、その人の声色だけではなく感情のトーンや録音環境も再現した合成音声を作成することが可能になっています。 VALL-E https://valle-demo.github.io/ [2301.02111] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers https://doi.org/10.48550/arXiv.2301.02111 Microsoft’s new AI can simulate anyone’s voice with 3 seconds of audio | Ars Technica