「なぜ、ボーカロイドはうまく調整してもどこか“機械っぽさ”が抜けないのか」という質問に対しては、「ああいったものは従来の数理モデルを利用しています。数理モデルは実際の現象をかなり単純化しているので、そこで大きな劣化が生まれているのが1つの要因」だと戸田教授はいう。WaveNetには単純化や近似といった、大きな劣化を生むプロセスがないことが特筆すべき点だ。 音声認識もニューラルネットワークで精度向上 「スマホ普及」も寄与 音声認識では、音声から文を推定するメジャーな方法として、得られた音声波形から「スペクトログラム」という、波形を短時間で切った周波数成分(音色)を時系列に並べたものをまず作成する。このスペクトログラムに適切な数理モデルを使用することで文を推定していく。 「従来よく使われてきたのが『隠れマルコフモデル』(HMM)という統計学の確率モデルで、このモデルではどこからどこまでが1つの