メタ傘下のメタAIは6月16日(現地時間)、新たな音声生成AIモデル「Voicebox」を開発したと発表した。 同モデルは英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語のパブリックドメインオーディオブックに収録された5万時間以上の録音音声とその文字起こしテキストを使用してトレーニングされており、たんなるTTS(Text-to-Speech:テキストを音声に変換する技術)にとどまらず、音声の編集、サンプリング、スタイライズなどの高度な音声生成タスクを実行することができる最先端のAIモデルとして開発された。 たった2秒間のサンプルでOK Voiceboxは2秒程度の短い音声サンプルがあれば、それを使ってスタイル(特定の人の音声や特定の感情の表現方法)を学習して音声合成に使用することができる。 将来的にはこの機能を利用して、話すことができない人に音声を届けたり、NPCやバーチ