Neural Audio Codecベースの音声合成モデル性能改善手法に関する検討

テクノロジーカテゴリーの変更を依頼記事元:

zenn.dev/rinna

1 userがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Neural Audio Codecベースの音声合成モデル性能改善手法に関する検討

初めまして、rinna株式会社でインターンをしている中田　亘です。今回インターンの中でNeural Audio Co... 初めまして、rinna株式会社でインターンをしている中田　亘です。今回インターンの中でNeural Audio Codecベースの音声合成モデルについて調査を行ったので、その内容を紹介します。音声合成では、数秒の音声を合成するだけでも非常に長い系列を合成する必要があります。例えば24kHz、10秒の音声を合成する場合、24万サンプル持つ系列の合成が必要です。こういった長い系列を深層学習を用いて合成するのは難しいため一般的には学習前に圧縮を行います。その圧縮方法として広く使われてきたのがメルスペクトログラムです。メルスペクトログラムを使用することにより、音声信号を画像という扱いやすい情報として扱うことが可能です。一方で近年ではNeural Audio Codec (NAC) を用いた表現方法が注目を集めており、音楽合成や音声合成において有効な表現と報告されています。今回は、NACを

ブックマークしたユーザー

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx