グーグルの人工知能研究企業ディープマインドは9月8日、ディープラーニング技術を用いて人間の生の声に近い合成音声を生成する技術「WaveNets」を発表した。ディープマインドはコンピューター囲碁プログラムAlphaGoをなど人工知能技術で知られる。 音声合成(TTS:Text to Speach)では、サンプリングした音声から音素データを生成、合成時には加工して自然に聴こえるようにするが、前後の単語などにより音の波形は変化するため違和感が残りやすい。現在主流の「パラメトリックTTS」では、さまざまな単語などの発声データをパラメーター化し、テキストから音声を直接合成する。比較的リアルではあるが若干不自然さは残る。