
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
「Pythonで学ぶ音声合成」の Tacotron2 のメルスペクトログラム合成を LSTM から Transformer に改修した。 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
「Pythonで学ぶ音声合成」の Tacotron2 のメルスペクトログラム合成を LSTM から Transformer に改修した。 - Qiita
報告の概略 今回の報告は、最終的な形ではなく、LSTM で行っていたことを Transformer で行うことが可能... 報告の概略 今回の報告は、最終的な形ではなく、LSTM で行っていたことを Transformer で行うことが可能だったという第一報です。合成されたログメルスペクトログラムと development 用データを推論した音声とプログラムを掲載します。 改修の動機 音声認識において、「Python で学ぶ音声認識」(LSTMでの音声認識が解説されている)を勉強しながら、 のページ(Transformer での音声認識)を勉強したり、OpenAI の Whisper のソース(Transformer での音声認識)を勉強していました。LSTM で行っていたことを Transformer に置き換えられそうだったので、 音声合成の Tacotron2 (LSTM)のメルスペクトログラムの合成を Transformer でできないかという発想です。Transformer を用いているので、改修した