米マイクロソフト、3秒で声を真似できる音声合成AI「VALL-E」を発表 - fabcross for エンジニア

テクノロジーカテゴリーの変更を依頼記事元:

engineer.fabcross.jp

5 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

deejayroka "テキスト音声合成（TTS: Text to Speach）を従来のような連続信号回帰ではなく、条件付きの言語モデリングタスクとして捉える点が特徴だ。また、既存のシステムの数百倍にあたる6万時間もの英語音声を学習データとしている

2023/02/12 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

米マイクロソフト、3秒で声を真似できる音声合成AI「VALL-E」を発表 - fabcross for エンジニア

米マイクロソフトは2023年1月5日、3秒の音声データから話し手の声を学習し、その声でテキストを読み上げ... 米マイクロソフトは2023年1月5日、3秒の音声データから話し手の声を学習し、その声でテキストを読み上げることができる言語モデル「VALL-E」をgithubで発表した。従来の音声合成では、音素からメルスペクトログラム、そして音声波形、というステップを踏んでいた。それに対しVALL-Eでは、音素から離散コード、そして音声波形という流れになっている。音素と音響コードプロンプトに基づいて、対象となるコンテンツと話者の声に一致する離散音声コーデックコードを生成する。 VALL-Eでは、テキスト音声合成（TTS: Text to Speach）を従来のような連続信号回帰ではなく、条件付きの言語モデリングタスクとして捉える点が特徴だ。また、既存のシステムの数百倍にあたる6万時間もの英語音声を学習データとしている。その結果、最先端のゼロショット（機械学習で、学習していないものを識別あるいは予想など

ブックマークしたユーザー

yfnt2023/02/19
puruhime2023/02/17
mycle2023/02/15
deejayroka2023/02/12

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx