概要 本研究では,少数のパラレルデータで学習可能な声質変換モデルと,多数のノンパラレルデータで学習可能な高品質化モデルに分けることで, 必要なパラレルデータ数を抑えつつ高品質な声質変換を行う手法を提案する。 1段目のモデルでは,時間方向に1次元畳み込み層を持つ畳込みニューラルネットワーク (CNN) を用いて, 時間的な依存関係を考慮しつつ,入力話者の基本周波数と低次のメルケプストラム系列を目標話者のものに変換する. 2段目のモデルでは,GANを用いて,過剰に平滑化された変換時の音響特徴を高精細化する. 実験結果から,従来手法と比べ,提案手法は同程度の自然性と高い個人性を持つ声質変換が可能であることを示した. 実験結果 主観評価実験により,変換音声の自然性と個人性をそれぞれ比較した. 自然性は音声が自然に聞こえるか,個人性は音声が目標話者らしく聞こえるかを表した指標である.