目次 (背景)自分の声を結月ゆかりにしたい。前回はあまりクオリティが良くなかったので、手法を変えて質を上げたい。 (手法)声質変換を、低音質変換と高音質化の二段階に分けてそれぞれ学習させた。画像分野で有名なモデルを使った。 (結果)性能が飛躍的に向上し、かなり聞き取れるものになった。 (考察)精度はまだ改善の余地があり、多対多声質変換にすることで精度が向上すると考えられる。今回の結果を論文化したい。 デモ動画 背景多くの人が可愛い女の子になりたいと思っている。 CG技術やモーションキャプチャ技術の向上により、姿は女の子に仮想化できるようになってきた。 しかし、声に関してはまだまだ課題が多い。 声質変換は「遅延」「音質」「複数話者」などの難しい課題がある。 今回は、自分の声を結月ゆかりにするための、低遅延で実現可能な高音質声質変換を目指した。 手法大きく分けて3つの工夫をした。 画像ディープ