AI音声アシスタントがテキストから音声に変換して「発話する」仕組みを「音声合成」と呼んでいるが、この領域に新しい技術がまた一つ登場した。 今回は、Googleが自社ブログにて発表した、まるで人間のような自然な音声合成を実現する技術「Tacotron 2」を紹介する。 Tacotron 2とは? もともとGoogleが使っていたTacotronやWaveNetなどの技術と取り入れつつ、新しいシステム「Tacotron 2」を完成させたという。 いままでのアプローチと異なる点は、複雑な言語機能や音響機能を入力として使用せず、スピーチ例とそれに対応するテキストだけを使ってニューラルネットワークを訓練することにある。 詳しいことは論文を参照いただくとして、ここでは以下音声サンプルでそのリアルさを体感してみてほしい。 音声合成サンプル Tacotron 2を使って生成された、さまざまなバリエーション