エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
米マイクロソフト、3秒で声を真似できる音声合成AI「VALL-E」を発表 - fabcross for エンジニア
米マイクロソフトは2023年1月5日、3秒の音声データから話し手の声を学習し、その声でテキストを読み上げ... 米マイクロソフトは2023年1月5日、3秒の音声データから話し手の声を学習し、その声でテキストを読み上げることができる言語モデル「VALL-E」をgithubで発表した。 従来の音声合成では、音素からメルスペクトログラム、そして音声波形、というステップを踏んでいた。それに対しVALL-Eでは、音素から離散コード、そして音声波形という流れになっている。音素と音響コードプロンプトに基づいて、対象となるコンテンツと話者の声に一致する離散音声コーデックコードを生成する。 VALL-Eでは、テキスト音声合成(TTS: Text to Speach)を従来のような連続信号回帰ではなく、条件付きの言語モデリングタスクとして捉える点が特徴だ。また、既存のシステムの数百倍にあたる6万時間もの英語音声を学習データとしている。 その結果、最先端のゼロショット(機械学習で、学習していないものを識別あるいは予想など
2023/02/12 リンク