エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Neural Audio Codecベースの音声合成モデル性能改善手法に関する検討
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Neural Audio Codecベースの音声合成モデル性能改善手法に関する検討
初めまして、rinna株式会社でインターンをしている中田 亘です。 今回インターンの中でNeural Audio Co... 初めまして、rinna株式会社でインターンをしている中田 亘です。 今回インターンの中でNeural Audio Codecベースの音声合成モデルについて調査を行ったので、その内容を紹介します。 音声合成では、数秒の音声を合成するだけでも非常に長い系列を合成する必要があります。例えば24kHz、10秒の音声を合成する場合、24万サンプル持つ系列の合成が必要です。 こういった長い系列を深層学習を用いて合成するのは難しいため一般的には学習前に圧縮を行います。その圧縮方法として広く使われてきたのがメルスペクトログラムです。メルスペクトログラムを使用することにより、音声信号を画像という扱いやすい情報として扱うことが可能です。 一方で近年ではNeural Audio Codec (NAC) を用いた表現方法が注目を集めており、音楽合成や音声合成において有効な表現と報告されています。 今回は、NACを