SPTKの使い方 (6)(2012/8/5)の続き。 今回は、SPTK(2012/7/1)を使って音声合成の実験をしてみました。ここで言う音声合成は、テキストを音声に変換するTTS(Text-to-Speech)ではなく、分析合成と呼ばれるものです。 分析合成では、人間の音声からパラメータを抽出し、ソース・フィルタモデル(Wikipedia)を用いて音声を再合成します。いわゆるヴォコーダーという技術です。ヴォコーダー(Wikipedia)を調べると 本来の意味は通信用の音声圧縮技術で、携帯電話などの多くの機器で使用されている。音声の波形を直接送るのではなくパラメータ化して送り、受信側ではそれらのパラメータから元の音声を合成する。 ヴォコーダー(Wikipedia) とあります。ん?ということは、携帯電話で聞いているのは実際の肉声ではなく、パラメータから再合成した合成音声なのですかね?これは