エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント3件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Microsoft、3秒分の音声だけでその人の声を真似るAI「VALL-E」のサンプル公開
米Microsoftの研究者らは1月5日(現地時間)、人間が話す声の3秒分のデータを与えると、その人のように... 米Microsoftの研究者らは1月5日(現地時間)、人間が話す声の3秒分のデータを与えると、その人のようにテキストを読み上げられるようになるAI「VALL-E」を発表した。GitHubで公開されたサンプルでは、怒りや眠そうな様子などのトーンも追加できている。 Microsoftが「ニューラルコーデック言語モデル」と呼ぶVALL-Eは、米Metaが昨年10月に発表した「EnCodec」に基づいて構築された。分析した人間の声をEnCodecで個別の「トークン」に分割し、トレーニングデータを使ってトークンを生成するという。 VALL-Eの音声合成機能は、やはりMetaが作成した音声ライブラリ「LibriLight」でトレーニングした。このライブラリには7000人以上の人間による6万時間分の英語音声が含まれている。 VALL-EのWebサイトのサンプルの、「Speaker Prompt」は与えら
2023/01/13 リンク