マイクロソフトは1月5日(現地時間)、3秒間の声のサンプルを使用するだけで、その人の声を真似た音声を合成できる言語モデリングアプローチ「VALL-E」を発表した。 しゃべらせたいテキストと3秒間のお手本音声を入力するだけ 「ニューラルコーデック言語モデル」と呼ばれるVALL-Eは、Metaが2022年10月に発表した「EnCodec」というAIを使った音声圧縮技術をベースにしている。 論文によると、しゃべらせたいテキスト(Text Prompt)と、お手本となる3秒間のサンプル音声データ(Acoustin Prompt)を入力すると、事前にトレーニングされたデータを使って分析し、その声が3秒間のサンプル以外のフレーズを話した場合にどう聞こえるかをAIが予測し、まるでお手本を録音した人がしゃべったかのようにテキストを再生できる。 トレーニングは、やはりMetaが作成した7000人以上の話者に