こんにちは,@hogefugabarです. この記事はDeepLearning Advent Calendar 2016の21日目の記事です. 専門では無いですが,声質変換について書きます. 本記事執筆に当たって,@asteer23に助言を頂きました.感謝します. 指摘等歓迎です. (随時コードも上げていきたいが修論があるので確約はできないです) はじめに 声質変換とは,「ある話者の音声」(入力)を「ターゲットとなる話者(出力話者)が同じ内容を話したかのような音声」(出力)に変換することである.イメージはコナンくんの蝶ネクタイなのである. 声質変換システムの概要 一般的な声質変換システムの概要を示したのが以下の図である. 入力話者の音声データ(WAVファイル)から音響特徴量(後述)を抽出 出力話者を目標として学習したモデルを用い,音響特徴量を変換 音響特徴量から音声データ(WAVファイル)