学習と音声生成の合計時間が10秒未満で、文章から日本語や英語の音声などを生成したり、わずか3秒の声から似せた音声の生成を行ったりできる驚異の技術「VALL-E-X」をWindowsで動かす方法を画像付きで丁寧に解説します。 動作時のハードウェア負荷(VRAM使用量)なども併せて載せておくので参考にしてください。 わずか6秒の音声ファイル1つを元に、以下のような声質を反映させた読み上げが可能でした!! 学習と生成の合計所要時間は10秒未満でした!!! 「ご主人様。何なりとお申し付けください。」 : 「お兄ちゃんおはよう」 : ちなみに学習元音声はこの動画の冒頭みたいなものなので、結構再現できてます。