この記事は? ・MATLAB ちゃん開発記録 #1(MATLAB + VOICEVOX + ChatGPT)←本記事 ・MATLAB ちゃん開発記録 #2 MATLAB ちゃんと音声で会話する(MATLAB + Whisper) ・MATLAB ちゃん開発記録 #3 MATLAB ちゃんをオーバーレイ表示する(MATLAB + .NET) MATLAB 上で動く AI チャットボット、MATLAB ちゃんを開発してみたので、その開発記録になります。 MATLAB+ChatGPT+Voicevox により、MATLAB上で動く「MATLAB ちゃんアプリ」を作ることに成功しました! チャットを送信すると、表情付きで音声&テキストで答えてくれます! 近々Qiitaで記事を書く予定…… pic.twitter.com/l02v3Wowqv — マハト@MACHTLAB (@mahato_stra
こんにちは。最近、ChatGPT×VRM 3Dモデル×VOICEVOXで性格・見た目・声をカスタマイズできるAIアシスタントアプリを開発・運営しているうえぞうと申します。 今回、このアプリの3大要素の一つである声を担うVOICEVOXのAPIサーバーの運用が結構大変だったので、その知見を還元することで少しでもコミュニティーに貢献したいと思いこの記事を書きました。 諸々の工夫についてはまた別途記事化するとして、本記事では企画段階で知っておくべきスループットの特徴についてシェアしたいと思います。 検証内容 まずは手元のPC(MacBook Pro 2020 / Core i7 論理8コア / 32GB RAM)で多重度の検証、その後一般的なAWSのサーバーでその処理時間を計測してみます。みなさんがVOICEVOXを利用したサービスを展開される際、一つの目安にしていただけるかと思います。 環境準
こんにちは、ライです。 3/2にChatGPTのAPIが公開されてから、様々なアプリケーションが作られている様子をTwitterで見かけるようになってきました。 私はStable Diffusionで遊び始めたことをきっかけにPythonに初めて触れた程度でプログラミング経験はほぼないのですが、ChatGPTの助けを借りながらなら自分でも何か作れるのでは?と思い始めました。 これまで画像生成AIで遊んでいたこともあり、ChatGPTと画像生成AIを掛け合わせて、何か面白いものをを作れないかなぁと考えました。 で、作ったアプリはこのようなものです。 テーマを入力すると、AIイラストとシナリオを生成して読み上げてくれるアプリを自分用に作りました。 好きな世界観に浸れる感じがすごくいい!#AIart #AIイラスト #ChatGPT pic.twitter.com/yGgdvaMYi4 — ライ
概要 進級制作で発表するための作品として、友人の声からTTSを作成したので、作り方や難しかったところ等を記事にしてみました 参考にさせていただいたページは最後に記載しています 目次 1.TTSとは 2.きっかけ 3.製作 4.終わりに 5.参考記事 TTSとは Text-To-Speakつまり音声合成のことで、 ゆっくり実況でおなじみの「棒読みちゃん」やVOICEROIDの「東北ずん子」、VOICEVOX「ずんだもん」等のことである きっかけ 第一に筆者が音声合成読み上げソフトのキャラクターが好きであり、それを利用した動画コンテンツをよくみる ソフト自体も所持しており、購入しているソフトは20本以上になる推しはFEEちゃん また、VOICEVOXの登場でブームが来ているというのもあり、作ってみたいと入学時から思っていたため、進級制作として作成した 製作 実際に制作する作業に入る前に目標を定
おいおいまたかよ、驚き屋かお前はと言われそうですが、またゲームチェンジャーなんですよ。ほんとすいません。全部AIが悪いんです。 AI関連はちょっと目を離すと取り残されてしまいます。後から来たのに追い越され、泣くのが嫌なら歩いていくしかないのです。今回、それが再びAI音声合成で起きました。 筆者はAIアートグランプリを受賞したおかげでいろいろなところから取材を受けたり自分でも解説記事を書いたりしていますが、その中で、Diffusion(拡散)モデルを使ったDiff-SVCというAI声質変換によってリアルな元音声を再現できると説明してきました。ですが、これからは「実は今は新しいAI技術を使っているんですよ」と付け加えなければいけません。 妻の歌声を合成するのに使っていたDiff-SVCから別の新しい技術に乗り換えてしまったのです。 Diff-SVCが出た後に、So-VITS-SVC(SoftV
私は趣味で機械学習を学ぶ初学者であり、説明に間違いや勘違いがある可能性があります。そういった点がありましたらコメントで指摘していただけると助かります。 また、so-vits-svcやRVCは論文ベースでの技術発表が無いため、以下はコードや周辺情報からの想像を含みます。 修正履歴 2023/04/15 RVCの動作について誤りがあったので修正しました。nadare🌱さんご指摘ありがとうございます。 AIボイスチェンジャーとは ある発話音声の入力を特定の話者が発話したような声質の発話音声に変換するための、深層学習を使用したアプローチがそう呼ばれている印象です。 以前から、深層学習を用いたリアルタイムボイスチェンジャーはMMVCなどが存在していました。 最近(2022年11月頃から2023年4月頃)では、Retrieval-based-Voice-Conversion 通称RVC や、Soft
VC Client新バージョンで追加されたRVC周りの新機能についてまとめました、これやるだけでかなり変わりますhttps://t.co/qSSgazBgBg#RVC #VCClient — omiz (@omiz_aiart) April 15, 2023 いよいよラストです。もうちょっとで理想の声になれます。 当たり前ですが悪用厳禁です。 ①VC Clientの起動 ②モデルの選択・アップロード ③音声の確認 ④音声の調整 ⑤Discordでボイチェンを使う ①VC Clientの起動MMVCServerSIO\start_http_RVC.batを開きます。するとコマンドプロンプトが起動し、ローカルホストでVC Clientが立ち上がるはずです。 ②モデルの選択・アップロード画面中央のselectから【学習編】で作成した.pthファイルを指定します。 次にuploadをクリックすると
はじめにこの記事は【準備編】RVCを用いたリアルタイムボイスチェンジを1から解説してみる、【学習セット用意編】RVCを用いたリアルタイムボイスチェンジを1から解説してみるの続編です。まだ読んでない人は準備編から見てね。 RVC-betaフォルダのgo-web.batを起動するとコマンドプロンプトが起動し、ローカルホストでweb-uiが起動します。 起動したら训练タブを開きます。 step1输入实验名は完成したモデルの名前になります。分かりやすい名前にしましょう。 ⚠スペースをいれたり'をいれたりした場合、その後の輸出信息にで不具合が発生するようです。数字とアルファベットのみの名前だと問題なく機能します。 目标采样率は学習セット用意編に合わせて48kにしましょう。 模型是否带音高指导(唱歌一定要,语音可以不要)は是にすると歌えるっぽいです。 step2a输入训练文件夹路径は学習セット用意編で
はじめにこの記事は【準備編】RVCを用いたリアルタイムボイスチェンジを1から解説してみるの続編です。まだ読んでない人は準備編から見てね。 この記事で紹介している内容に関して私は一切の責任を負いません、自己責任でお願いします。また、声には著作権・肖像権が関係しているので、トラブルになるようなことはお控えください。 ①学習セットの条件 ②音声の加工 ③加工した音声を分割する ④wavファイルを書き出す ①学習セットの条件条件は、ノイズが少ない数秒間の発話音声(.wav)です。 理想はITAコーパスのような、ノイズのない数秒で区切られた音声ですが、用意する難易度が高いです。 なので、この記事ではBGMの無い数分から数十分の音声から作る方法を紹介します。 追記 だだぱんさんがBGM消し去るツールの記事書いてくれました。 ②音声の加工Audacity v2.4.2を開きます。 でてきた画面に用意した
用意するもの①VB-CABLE Virtual Audio Device(仮想オーディオデバイスならなんでも) ②7zip ③Hugging Faceアカウント ④VC Client v.1.5.2.2 ⑤hubert_base.pt ⑥RVC-beta ⑦Audacity どれくらいのスペックが必要かメモリを16GB積んでいてかつ、グラボを積んだゲーミングPCであれば問題ないと思います。 私のパソコンは、 GPU NVIDIA GeForce RTX 2070 SUPER CPU Intel(R) Core(TM) i7-10700 メモリ 32GB です。これくらいのスペックがあれば余裕を持って学習・ボイチェンできます。 追記:強いMacでも動くらしいです ①VB-CABLE Virtual Audio Device DiscordとかゲームのVCでボイチェンを使うのに必要です。 公式
【導入】 ・この記事の最終目標は「リアルタイム変換でずんだもんボイスになってDiscordで通話する」です。 ・大まかな記事の流れは「RVCで学習モデルを作る」→「学習モデルをVC Clientに入れる」→「リアルタイムボイチェン完成!」です。 ・「RVC」という超凄い非リアルタイム音声変換ソフトが話題になったと思ったら、翌日に「VC Client」という超凄いソフトがリアルタイム音声変換に対応したのを聞いたので、急いで記事を書きました。 ・この記事ではずんだもんボイスになることを目標としていますが、学習先の音声さえあればどんな音声にもなれます。 【手順】 ①~RVCのダウンロード~ ・以下のURLを開いて、「RVC-beta.7z」をDLします。(要Hugging Faceアカウント)(Hugging Faceアカウントを持ってない人は無料なので作りましょう) https://huggi
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く