2017年~2018年4月までのディープラーニング(Deep Neural Network)を用いたText to speech手法をまとめました。 Text to speech(TTS)とは TTSとは、文章を入力し音声に変換して出力する技術のことです。 TTSのソフトウェアとしては、VOICELOIDや、「ゆっくり」こと棒読みちゃんが有名です。 既存のソフトウェアのほとんどはDNNを用いずに音声を合成していますが、近年ではDNNによるTTSが盛んに研究されています。 TTS手法の概要 DNN以前のTTSでは、次の図のように「テキスト」→「言語特徴量」→「音響特徴量」→「音声」という手順でテキストから音声へと変換します。 DNNを用いる手法の場合、このモデルの中でどの部分をDNNで行うかが手法によって異なります。 引用:NIPS2017報告 SPEECH & AUDIO) 上の図を参考に