オープンソースのAI声質変換(ボイスチェンジャー)ソフトウェア「RVC WebUI」が、日本語での表示に対応しました。 VITSという声質変換技術をベースにしたRVC(Retrieval-based Voice Changer)に、Webユーザーインタフェースを付加したのが「RVC WebUI」です。
タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
おいおいまたかよ、驚き屋かお前はと言われそうですが、またゲームチェンジャーなんですよ。ほんとすいません。全部AIが悪いんです。 AI関連はちょっと目を離すと取り残されてしまいます。後から来たのに追い越され、泣くのが嫌なら歩いていくしかないのです。今回、それが再びAI音声合成で起きました。 筆者はAIアートグランプリを受賞したおかげでいろいろなところから取材を受けたり自分でも解説記事を書いたりしていますが、その中で、Diffusion(拡散)モデルを使ったDiff-SVCというAI声質変換によってリアルな元音声を再現できると説明してきました。ですが、これからは「実は今は新しいAI技術を使っているんですよ」と付け加えなければいけません。 妻の歌声を合成するのに使っていたDiff-SVCから別の新しい技術に乗り換えてしまったのです。 Diff-SVCが出た後に、So-VITS-SVC(SoftV
高精度でリアルタイム処理も可能なAI声質変換ソフト(ボイスチェンジャー)「RVC」の記事が大変な反響を呼びました。Stable DiffusionやChatGPTなど生成系AIがメジャー化する中、世間からはそれほど大きな注目を浴びているわけではありませんが、音声AIも驚くべき速度で進化を遂げています。 AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能(CloseBox) | テクノエッジ TechnoEdge 記事中でデモとしてお聞かせしたのは、筆者の妻の歌声を高精度に再現するもので、それはこのソフトのおそらく最大の特徴を生かしたものではありません。そこで、また実験をしてみることにしました。 今回は、ポッドキャストbackspace.fmを10年近く一緒にやっている友人であるドリキンのAIモデルをRVCで作ってみました。 backsp
オープンソースのAIボイスチェンジャー「Retrieval-based Voice Changer(RVC)」は、あらかじめ用意した音声から学習したモデルを作成し、リアルタイムで声質を変換することが可能です。このRVCで作成した音声変換モデルを手軽に実行できるボイスチェンジャーソフト「Koemake RVC player」を電々メイさんが無償でリリースしたので、実際に使ってみました。 Koemake Project https://koemake.com/ Koemake RVC Playerを動かすための推奨スペックは「VRAM4GB以上、NVIDIA製GPU搭載、Windows 10以上」となっているので注意が必要です。 Koemake RVC Playerをダウンロードするには、上記の配布サイトでユーザー登録をする必要があります。配布サイトにアクセスしたら、右上の「ログイン」をクリッ
私は趣味で機械学習を学ぶ初学者であり、説明に間違いや勘違いがある可能性があります。そういった点がありましたらコメントで指摘していただけると助かります。 また、so-vits-svcやRVCは論文ベースでの技術発表が無いため、以下はコードや周辺情報からの想像を含みます。 修正履歴 2023/04/15 RVCの動作について誤りがあったので修正しました。nadare🌱さんご指摘ありがとうございます。 AIボイスチェンジャーとは ある発話音声の入力を特定の話者が発話したような声質の発話音声に変換するための、深層学習を使用したアプローチがそう呼ばれている印象です。 以前から、深層学習を用いたリアルタイムボイスチェンジャーはMMVCなどが存在していました。 最近(2022年11月頃から2023年4月頃)では、Retrieval-based-Voice-Conversion 通称RVC や、Soft
【導入】 ・この記事の最終目標は「リアルタイム変換でずんだもんボイスになってDiscordで通話する」です。 ・大まかな記事の流れは「RVCで学習モデルを作る」→「学習モデルをVC Clientに入れる」→「リアルタイムボイチェン完成!」です。 ・「RVC」という超凄い非リアルタイム音声変換ソフトが話題になったと思ったら、翌日に「VC Client」という超凄いソフトがリアルタイム音声変換に対応したのを聞いたので、急いで記事を書きました。 ・この記事ではずんだもんボイスになることを目標としていますが、学習先の音声さえあればどんな音声にもなれます。 【手順】 ①~RVCのダウンロード~ ・以下のURLを開いて、「RVC-beta.7z」をDLします。(要Hugging Faceアカウント)(Hugging Faceアカウントを持ってない人は無料なので作りましょう) https://huggi
現在Twitterを始めとして、自分がbooth販売したRVCデータについてのデマが横行しております。 そちらのデマ訂正と説明記事になります。 ・実在する小学生男子の甥の声を本人や家族騙して収録 ・学習データを許可を得ず勝手に高額販売 ・児童ポルノ的用途を推奨してる 上記全てデマです。 販売データに関して、自身は一言も「小学生の甥の声」であると発言していません。このデータについて、「甥」であるとはTwitterでもBOOTHでも発言してません。これは甥の声ではありません。 親族(血縁者)の声を学習させていますが、法的に問題ある人物に依頼しての収録を行った事実はなく、またその人物に対して卑猥な音声データの収録を行った事実もありません。 サンプルの音声は852話自身の音声をRVCに通したものであり、該当作品において「該当の未成年児童の音声データ、学習元データ」がweb上で公開されたことはありま
用意するもの①VB-CABLE Virtual Audio Device(仮想オーディオデバイスならなんでも) ②7zip ③Hugging Faceアカウント ④VC Client v.1.5.2.2 ⑤hubert_base.pt ⑥RVC-beta ⑦Audacity どれくらいのスペックが必要かメモリを16GB積んでいてかつ、グラボを積んだゲーミングPCであれば問題ないと思います。 私のパソコンは、 GPU NVIDIA GeForce RTX 2070 SUPER CPU Intel(R) Core(TM) i7-10700 メモリ 32GB です。これくらいのスペックがあれば余裕を持って学習・ボイチェンできます。 追記:強いMacでも動くらしいです ①VB-CABLE Virtual Audio Device DiscordとかゲームのVCでボイチェンを使うのに必要です。 公式
はじめに ↑に貼った動画は話題の高性能ボイスチェンジャー「RVC」の変換例です(Creative Commonsで配布・改変が可能なライセンスの音声データを学習させたものです。BOOTHで無料配布中です)。今回の記事では動画の4つ+1の計5モデルを作成する中で見えてきたRVCの仕組みや使用時・モデル生成時のコツを紹介したいと思います。 BOOTHで学習済みモデル無料配布中(ライセンスはそれぞれ異なり、元データに準拠します) 注意事項 本編に入る前にいくつか前提を明らかにしておきます。私自身、RVCや音声認識についての専門知識はほぼありません。RVCについて初めて知ったのは約2週間前で、そのレベルは初心者の域を出ないと思っていただければと思います。さらに、RVCのモデルであるHuBERTやトランスフォーマーに関する知識もあまりありません(論文もまともに読んでません)。 したがって、この記事の
「音声変換の学習に時間がかかり過ぎだ・・・」 「so-vits-svcよりも性能の音声変換技術を探している」 このような場合には、RVCがオススメです。 この記事では、RVCによる音声変換について解説しています。 本記事の内容 RVCとは?RVC WebUIのインストールRVC WebUIの利用方法 それでは、上記に沿って解説していきます。 RVCとは? RVCとは、Retrieval-based-Voice-Conversionの略称です。 現時点(2023年4月)では、このRVCが最新の音声合成技術と言えます。 つい最近まで、この分野ではso-vits-svcという技術が最新だったはずなんですけどね。 RVCは、so-vits-svcよりも性能が良い言われています。 RVCの性能については、次の音声で確認できます。 岸田首相の声を人気声優の声に変換しています。 なお、人気声優については
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? こんにちは、nadareです。 機械学習エンジニアで、普段はレコメンド・検索関連のお仕事をしています。いろんな競技プログラミングが好きです。 最近はRetrieval-based-Voice-Conversion(以下RVC)という技術に関心を持ち、本家Retrieval-based-Voice-Conversion-WebUIやddPn08さん版RVC-WebUI、VC ClientにPR投げつつ勉強しています。 本記事では、RVCのモデルで綺麗な日本語に変換するための学習テクニックを紹介します。 2023/05/24 追記 続・RV
クリムゾンテクノロジーの音質変換ソフト「Voidol3R」に搭載されているリアルタイム音質変換(RVC)モード用ボイスモデルに、「Megpoid」「音街ウナ」が2024年12月6日(金)に登場しました。リアルタイムのボイスチェンジャーでありながら、高精度かつ自然な声質変換を可能とのことで、実際に試してみました。 Voidol3R | 変幻自在の声質変換 | クリムゾンテクノロジー株式会社 https://crimsontech.jp/apps/voidol3r/ Voidol3RはVoidol 3から無償アップデートすることで、RVCエンジンである「Voidol RVC」に対応します。Voidol3Rのインストールと操作方法については、以下の記事を読むとよくわかります。 誰の声でも簡単・リアルタイムで女声・男声・ささやき声などへ自由自在に変換できる「Voidol3」のSYNTHモードを使っ
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? まえがき 「ここ数年でバズったAI技術や、最近勢いのある生成系AI技術をキャッチアップしたい」 最近のLLMブームにより、一般の人も簡単にAI技術を使いこなせるようになりました。 特に、もともとAIに明るくなくても、エンジニアなら実装までできるので、インパクトのあるプロダクトを作ることが可能になりました。 「これまでモデル開発をしてきたデータサイエンティスト・AIエンジニアの立場が危ぶまれている気がする」 そんな危機感から、一通り、まずは知る・使えるようになることを目指してこの記事を書くことにしました。 前半パート: 使ってみる編(全員
今回は、RVC学習済データとVC Clientを使って、リアルタイムで自分の声を別の声に変える方法について解説します。 RVC(Retrieval-based-Voice-Conversionの略)は中国初のAIボイスチェンジャーで、精度と学習・変換速度がやばいです。 従来からあるMMVCと違いボイチェン感がなく、本当に違和感がなくなめらか。 まさにコナン君の蝶ネクタイのようにリアルタイムで声を変えてくれます。 大まかな流れは「RVC学習済データを用意する」ー「VC ClientでRVC音声データを読み込み」ー「リアルタイムでボイチェンして録音する」 すでに学習させているRVCデータを使うのでハイスペックなパソコンは必要ありませんし、お金もかかりません。 私の環境はWindowsですが、MACでも動くはずです。 今回は録音する方法になりますが、リアルタイムでボイチェンできるのでDiscod
流行りのAIブームがボイスチェンジャーにもやってきました。 RVCとVC Clientを組み合わせることによって、リアルタイムでAIボイスチェンジャーを利用することができます。 声質は自由自在、学習させたい声の音声ファイルを用意すれば誰だって好きな声で喋ることが可能です。 男性ボイスを女性ボイスに変換した場合のサンプル音声でご確認ください。 普通の地声で喋っています。これの凄さは実際にやってみてお試しください。 2000個のwavファイルを30回学習させた場合(音源はあみたろさんです) 5000個のwavファイルを100回+他の学習モデルを合体させた場合(音源は色々です) RVC導入方法 学習ファイルの選定 VC Client導入方法 ノイズが乗ったりresが無限に伸びて困ってる人向け VB-Audio Virtual Cableの導入 wavファイルの素材量産方法 ノイズ除去 SoXの導
「年末のライブなんですが、今回、とりちゃんにコーラスをやってもらいたいと思っていて、リアルタイムで歌うことってできないですか?」 かつて妻が所属していて、今は自分が妻のパートであったキーボードを演奏している学生時代から続くバンドのリーダーからそんなメールが届いたのは2週間ほど前のこと。 2013年に他界した妻の歌声を元にしたバーチャルシンガー「妻音源とりちゃん」は、2013年9月の追悼コンサート以来、コロナ禍の時期以外はほぼ毎年、妻の歌声でライブに参加していたのですが、今回はリアルタイムで、という新たな課題が加わりました。 AIでリアルな発声ができるようになったとはいえ、バンドの演奏に合成音声をシンクロさせるのは至難の業。最新版の妻音源とりちゃん[AI]ではRVCという、低レイテンシーでのボイスチェンジャー機能が可能な技術を使っているとはいえ、ライブ演奏で実用に足るレベルかというと不安が残
はじめにこの記事は【準備編】RVCを用いたリアルタイムボイスチェンジを1から解説してみるの続編です。まだ読んでない人は準備編から見てね。 この記事で紹介している内容に関して私は一切の責任を負いません、自己責任でお願いします。また、声には著作権・肖像権が関係しているので、トラブルになるようなことはお控えください。 ①学習セットの条件 ②音声の加工 ③加工した音声を分割する ④wavファイルを書き出す ①学習セットの条件条件は、ノイズが少ない数秒間の発話音声(.wav)です。 理想はITAコーパスのような、ノイズのない数秒で区切られた音声ですが、用意する難易度が高いです。 なので、この記事ではBGMの無い数分から数十分の音声から作る方法を紹介します。 追記 だだぱんさんがBGM消し去るツールの記事書いてくれました。 ②音声の加工Audacity v2.4.2を開きます。 でてきた画面に用意した
従来のso-vits-svcと比較して、 約50倍速で同等の品質の学習モデル作成ができるRVC!! WindowsにRVC WebUI(ddPn08/rvc-webui)を導入し、好きな声のモデルを学習により作成し、音声変換するまでの一連の流れを画像付きで丁寧に解説します。 なお、中国の本家版でなくだだっこぱんだ氏が再構築された方のRVC WebUIを紹介しています。 (本家:yantaisa11/Retrieval-based-Voice-Conversion-WebUI) どんなことができる? 従来のSO-VITS-SVCで100分かけて作ったモデルと同等の品質のものが、2分ちょいでできます。 音声変換は音声の長さの等速~1.5倍速くらいの所要時間でできます。
本家本元のRVC-betaというRVC WebUIをWinslows環境にインストールして、モデルのトレーニングや音声変換(推論)を行う方法をわかりやすく、画像を多数使用して丁寧に解説します。 本家は中国語ですが、現在は日本語化が進んでおり、ほぼ不自由なく扱えます。 追記:今はもうVALL-E-Xの方が手軽。声の学習と音声合成の合計所要時間が10秒とかいう頭おかしいレヴェルで高速。 テキストを任意の声で音読してほしいなら、現状これがベスト。 TTS(Text-To-Speech)の最高峰。
声をAIで変換!? RVCとは? RVC(Retrieval-based-Voice-Conversion)は、最新のAI技術を活用した声変換ツールです。中国で開発されたため、UIは中国語で記載されていますが、日本語での説明もされています。 AIに音声データを渡すことで音声の特徴を学習させ、音声データを変換することが可能です。リアルタイムでの声を変換することもでき、様々なシチュエーションでの活用が期待されています。 他のボイチェンとの違い 他のボイチェンでは、ディープラーニングの仕組みを活用しているなど、そもそもの仕組みが異なります。 RVCではAIが処理をすることで、高品質かつ学習時間の短さが大きなポイントです。環境さえ揃えれば、誰でも無料で使える点も強みと言えるでしょう。 RVCの用途やメリット 便利なRVCですが、どのように活用できるのでしょうか。ここでは、RVCの用途やメリットにつ
2023年8月現在の最新版で使い方を解説しています。 以前upしたものとUIが大きく変わっていますので参考にしてください! つまづいたら参考にしてね! https://www.youtube.com/post/Ugkx6RljbgJ1zbpI6VoW_hQv8CQTBGKFNyeV 2PCで快適に配信したい場合はこちら https://www.youtube.com/watch?v=jjgoTSne_Rc&feature=youtu.be 自分でモデル作りたい!!はこちら https://www.youtube.com/watch?v=X66k_pa8Wc8 どうしても起動できない、わからん!という方に… Koemakeっていうのもあるよ! https://www.youtube.com/watch?v=0CtmBP-mvDU 次→声を作ろう編 https://www.youtu
を丁寧にまとめてみるという内容になっています。 ここ数カ月でAIを活用した便利ツールが続々と登場している中、最近AIボイスチェンジャーが話題になることが多くなりました。そこで私も興味を持って使ってみようと思い、まずはリアルタイムな音声変換を行える無料ツール「VC Client」を導入してみたのですが…いかんせん玄人向けの使い心地で、しかもネット上の情報も乏しかったので丸一日「どうやって使うんだコレ?」「上手くいかないなぁ」とあれこれ悩んでしまいました。 ただ最終的には使い方が分かったので、他の初心者の方が変に苦労しなくても済むように使い方をメモしておいた方がよさそうだなと思いました。 このような次第でここではVC Clientの使い方を丁寧に解説していきますね。
はじめに こんにちは、nadareです。 機械学習エンジニアで、普段はレコメンド・検索関連のお仕事をしています。いろんな競技プログラミングが好きです。 Retrieval-based-Voice-Conversion(以下RVC)という技術に関心を持ち、本家Retrieval-based-Voice-Conversion-WebUIやddPn08さん版RVC-WebUI、VC ClientにPR投げつつ勉強しています。 最近は自分でRVCのモデル構造弄って遊んでいます。最近勉強した技術の実験場みたいな感じなので本家にPRださないとは思いますが、その過程でRVCの学習回りについていろいろ分かってきたので自分用にまとめたいと思います。 RVCの構成 RVCはTTS(text to speech)とVC(Voice Convertaion)のモデルであるVITSをベースに、VCに特化させ『模倣対
AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能(CloseBox)https://geni.us/TYBFjd 驚異の高精度AIリアルタイムボイチェン「RVC」で友人になりすまして本人と会話したときの反応(CloseBox) https://geni.us/GAUIv7i 散財小説は毎朝6時に更新しています。 一回で完結するレビュー動画より、日々の生活の中でガジェットやカメラを使って気づいた発見やノウハウを共有できたらいいなと思っているので、朝の連続テレビ小説のように継続的に見ていただけると嬉しいです。 Music: Andrew Applepie https://andrewapplepie.com/ #連続散財小説 #ドリキン #ガジェット #gadgets #散財 #drikin #vlog #sanfrancisco
最近、AIボイスチェンジャーで話題になっているのが「RVCボイスチェンジャー」です。自分の声をリアルタイムに別人の声に変換して出力でき、精度が高くて変換速度も早いので人気を集めています。 ただし、このソフトは日本語対応が不完全で、使用するには事前に音声データをAIに学習させるのも必要です。そのため、初めて利用する方は、少し迷っているかもしれません。 この記事では、果たしてRVCボイスチェンジャーとはどんなものか、使い方やモデル配布サイトについて、詳しく紹介していきます。 Part 1. RVCボイスチェンジャーとは何ですか? RVCは「Retrieval-based-Voice-Conversion」の略で、中国が開発したAIボイスチェンジャーのことです。AI学習を導入したので、従来のボイスチェンジャーと比べると、精度と学習・変換速度が格段に違います。その凄さは機械で声を変換させた感じが無
まず一つ目が、ボーカルエフェクターと呼ばれるオーディオ機材を使って声質を変える「ハードウェアボイスチェンジャー」と呼ばれる方法です。もともとは歌声の声質を変化させるためのボーカル用の機材ですが、VRCでは主に女声を作るのに使用されています。 中でも有名なのがローランド「VT-4 VoiceTransformer」で、ピッチ・フォルマントを含む20種類のエフェクトやエコーによって声質を手元で簡単に調整できます。また単三電池が4本あれば出先でも使えてしまうのが大きな特徴です。 ハードウェアボイスチェンジャーは、下記で紹介するソフトウェアボイスチェンジャーに比べて遅延が発生しないため、スムーズな会話やカラオケ配信などに向いていますが、一方でボーカルエフェクター自体が2万~5万円程度することから導入に結構なコストが掛かってしまうというデメリットがあります。 ソフトウェアボイスチェンジャーの特徴 そ
のRVC1006Nvidia.7zから新しいRVCをダウンロードできます。 RVC1006Nvidia.7zをダウンロードしたら7z-zipアプリ↓を使って解凍してください。 解凍後はRVC1006Nvidiaフォルダ内のgo-web.batを起動してください。 これで新しいRVCが使えるようになります。 基本は今までと変わりません。 学習準備まず、歌わせたい人がしゃべっている十分程度の長さの動画、音声ファイルを用意します。 素材の注意点としては ①bgmや雑音などは極力減らす。 ②句点ごと(最低二秒)ほどの長さに切り分ける。 ③切り分けたファイルを画像のようにフォルダ内に保存する。 などがあります。 歌わせる学習トレーニングタブに飛び、五つの場所を変更します。 ①モデル名 自分の好きな名前で大丈夫です ②サンプリングレート 48kがおすすめです。 ③バージョン v2の方がクオリティが高い
はじめにこの記事は【準備編】RVCを用いたリアルタイムボイスチェンジを1から解説してみる、【学習セット用意編】RVCを用いたリアルタイムボイスチェンジを1から解説してみるの続編です。まだ読んでない人は準備編から見てね。 RVC-betaフォルダのgo-web.batを起動するとコマンドプロンプトが起動し、ローカルホストでweb-uiが起動します。 起動したら训练タブを開きます。 step1输入实验名は完成したモデルの名前になります。分かりやすい名前にしましょう。 ⚠スペースをいれたり'をいれたりした場合、その後の輸出信息にで不具合が発生するようです。数字とアルファベットのみの名前だと問題なく機能します。 目标采样率は学習セット用意編に合わせて48kにしましょう。 模型是否带音高指导(唱歌一定要,语音可以不要)は是にすると歌えるっぽいです。 step2a输入训练文件夹路径は学習セット用意編で
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く