3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した（CloseBox） | テクノエッジ TechnoEdge

テクノロジーカテゴリーの変更を依頼記事元:

www.techno-edge.net

727users がブックマークコメント

記事へのコメント77件

注目コメント
新着コメント

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

<iframe marginwidth="0" marginheight="0" src="https://b.hatena.ne.jp/entry.parts?url=https%3A%2F%2Fwww.techno-edge.net%2Farticle%2F2023%2F08%2F28%2F1812.html" scrolling="no" frameborder="0" height="230" width="500"><div class="hatena-bookmark-detail-info"><a href="https://www.techno-edge.net/article/2023/08/28/1812.html">3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した（CloseBox） | テクノエッジ TechnoEdge</a><a href="https://b.hatena.ne.jp/entry/s/www.techno-edge.net/article/2023/08/28/1812.html">はてなブックマーク - 3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した（CloseBox） | テクノエッジ TechnoEdge</a></div></iframe>

プレビュー

規約違反を報告

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した（CloseBox） | テクノエッジ TechnoEdge

わずか3秒の元音声から本人そっくりな音声合成が可能な技術「VALL-E X」が誰でも使える形で公開されまし... わずか3秒の元音声から本人そっくりな音声合成が可能な技術「VALL-E X」が誰でも使える形で公開されました。オープンソース版で、ローカルマシンからWebUIで利用できます。さっそくインストールして使ってみました。以前、ディープラーニングベースの音声・歌声合成ソフトであるDiff-SVC、リアルタイム処理が可能なAIボイチェンRVCを紹介したとき、自分は記事タイトルに「驚異の」という形容詞を付けました。それでも学習には数十分の本人による音声データが必要で、そこまでのデータを用意するのは容易ではありません。それに対してVALL-E Xでは元データが3秒あれば本人に似た声を生成できるのです。