[Whisper+ESPnet2(VITS)]音声合成システムを作った備忘録 - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/3253

1 userがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

[Whisper+ESPnet2(VITS)]音声合成システムを作った備忘録 - Qiita

概要以下の2つの構成で、テキストからの音声合成システムを作りました。収集した音声用データ(一人の... 概要以下の2つの構成で、テキストからの音声合成システムを作りました。収集した音声用データ(一人の音声)を、Whisperを用いて学習用データを作る ESPnet2を用いて学習今回は2.の部分は以下の記事のまま実行したので、メインで書くのは1.の部分となります。2.の部分は以下の記事を参照してください。ここでは解説しない知識なども載っているので、こちらをまず読むことをお勧めします。初めての投稿＋初めてのMarkdown記法なので読みにくかったら申し訳ないですが、備忘録＋結果報告として残しておきます。 (2023/06/18 読みやすくするため若干の修正を加えました) youtubeの音声データを用いているので、問題があれば削除します。 40分程度の雑な作りの学習用データでファインチューニングすればここまで行けるよ！ってイメージで結果だけ見ていただいてもかまいません。 Whisper

ブックマークしたユーザー

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx