10/11 追記: IEEE TASLPのペーパー (Open access) が公開されたようなので、リンクを貼っておきます: https://ieeexplore.ieee.org/document/8063435/ arXiv論文リンク: arXiv:1709.08041 前回の記事 の続きです。これでこのシリーズは終わりの予定です。 前回は英語音声合成でしたが、以前書いた DNN日本語音声合成の記事 で使ったデータと同じものを使い、日本語音声合成をやってみましたので、結果を残しておきます。 実験 実験条件 HTSのNIT-ATR503のデモデータ (ライセンス) から、wavデータ503発話を用います。442を学習用、56を評価用、残り5をテスト用にします(※英語音声とtrain/evalの比率は同じです)。継続長モデルは、state-levelではなくphone-levelです。