Googleは3月28日、クラウドのテキスト読み上げ機能で音声合成を可能にするAPIを公開しました。 12の言語と32種類の音声を選択でき、日本語にも対応しているとのこと。 しかも英語版ではDeepMindによる音声生成モデルWaveNetを搭載し、より自然な音声合成が可能になったのだとか。 アップデートされたWaveNetの音声クオリティ。より自然な発音に近づいている! 2016年の末ごろにDeepMindはWaveNetの最初のバージョンを公開しており、膨大な音声データをニューラルネットワークで学習することで、人間の肉声に近い音声の発話が可能になりました。 今回利用されているのはそのWaveNetの最新バージョンということで、音声がより洗練された仕上がりになっています。 具体的なアップデートはこちら。