ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 マイクロソフトが、たった3秒間のサンプル音声から誰かの声をシミュレートし、テキストを読み上げさせられる音声AI「VALL-E」を公開しました。 この音声AIは単に声色を似せるだけでなく、抑揚や周囲環境をカスタマイズして喋らせらることも可能なため、使い方を誤ればティープフェイクの音声版にもなり得ると研究者は述べています。 通常の音声合成は、音の波形を操作編集して目的の音声を作り出しますが、VALL-Eは何かを喋っている音声データとテキストを組み合わせて個別の音声コーデック用のデータを作り出す「neural codec language model」と称する言語モデルです。 Metaが開発したニューラルネットワー