エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
[Whisper+ESPnet2(VITS)]音声合成システムを作った備忘録 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
[Whisper+ESPnet2(VITS)]音声合成システムを作った備忘録 - Qiita
概要 以下の2つの構成で、テキストからの音声合成システムを作りました。 収集した音声用データ(一人の... 概要 以下の2つの構成で、テキストからの音声合成システムを作りました。 収集した音声用データ(一人の音声)を、Whisperを用いて学習用データを作る ESPnet2を用いて学習 今回は2.の部分は以下の記事のまま実行したので、メインで書くのは1.の部分となります。2.の部分は以下の記事を参照してください。 ここでは解説しない知識なども載っているので、こちらをまず読むことをお勧めします。 初めての投稿+初めてのMarkdown記法なので読みにくかったら申し訳ないですが、備忘録+結果報告として残しておきます。 (2023/06/18 読みやすくするため若干の修正を加えました) youtubeの音声データを用いているので、問題があれば削除します。 40分程度の雑な作りの学習用データでファインチューニングすればここまで行けるよ!ってイメージで結果だけ見ていただいてもかまいません。 Whisper