Microsoft、3秒分の音声だけでその人の声を真似るAI「VALL-E」のサンプル公開

テクノロジーカテゴリーの変更を依頼記事元:

www.itmedia.co.jp

22 usersがブックマークコメント

コメント

3

記事へのコメント3件

注目コメント
新着コメント

Seiji-Amasawa “GitHubで公開されたサンプルでは、怒りや眠そうな様子などのトーンも追加できている。 ”

2023/01/13 リンク

masadream サンプル聞いてみたがかなり自然。これは普通に悪用されるレベル。。

2023/01/11 リンク

uniR フェイクがこわいなーと思ってしまった。モデルで識別の手間を掛けなくてもわかるように、なるかなぁ……

2023/01/10 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Microsoft、3秒分の音声だけでその人の声を真似るAI「VALL-E」のサンプル公開

米Microsoftの研究者らは1月5日（現地時間）、人間が話す声の3秒分のデータを与えると、その人のように... 米Microsoftの研究者らは1月5日（現地時間）、人間が話す声の3秒分のデータを与えると、その人のようにテキストを読み上げられるようになるAI「VALL-E」を発表した。GitHubで公開されたサンプルでは、怒りや眠そうな様子などのトーンも追加できている。 Microsoftが「ニューラルコーデック言語モデル」と呼ぶVALL-Eは、米Metaが昨年10月に発表した「EnCodec」に基づいて構築された。分析した人間の声をEnCodecで個別の「トークン」に分割し、トレーニングデータを使ってトークンを生成するという。 VALL-Eの音声合成機能は、やはりMetaが作成した音声ライブラリ「LibriLight」でトレーニングした。このライブラリには7000人以上の人間による6万時間分の英語音声が含まれている。 VALL-EのWebサイトのサンプルの、「Speaker Prompt」は与えら

ブックマークしたユーザー

Seiji-Amasawa2023/01/13
yuiseki2023/01/11
masadream2023/01/11
jt_noSke2023/01/11
b-wind2023/01/10
IT_Help_jp2023/01/10
and_hyphen2023/01/10
Wacky2023/01/10
andsoatlast2023/01/10
uniR2023/01/10
AkihitoK2023/01/10
John_Kawanishi2023/01/10
ume-y2023/01/10

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx