[B! 音声合成] [2ページ] s_ryuukiのブックマーク

3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した（CloseBox） | テクノエッジ TechnoEdge

わずか3秒の元音声から本人そっくりな音声合成が可能な技術「VALL-E X」が誰でも使える形で公開されました。オープンソース版で、ローカルマシンからWebUIで利用できます。さっそくインストールして使ってみました。以前、ディープラーニングベースの音声・歌声合成ソフトであるDiff-SVC、リアルタイム処理が可能なAIボイチェンRVCを紹介したとき、自分は記事タイトルに「驚異の」という形容詞を付けました。それでも学習には数十分の本人による音声データが必要で、そこまでのデータを用意するのは容易ではありません。それに対してVALL-E Xでは元データが3秒あれば本人に似た声を生成できるのです。

s_ryuuki 2023/08/29

リンク

GitHub - YunaOneeChan/Voice-Changer-Settings: My settings for W-Okada's Realtime voice changer client.

s_ryuuki 2023/08/28

音声合成

リンク

無料で25人のAIシンガー使い放題なボーカロイド「VOCALOID β-STUDIO」はどこが画期的なのか、パラメータ1つで歌ってもらってわかったこと（CloseBox） | テクノエッジ TechnoEdge

「VOCALOID β-STUDIO」の試用申し込み受け付けが開始されたという記事を書くとともに、実際に申し込みもしていました。リリース前の協力者による作例が少しずつ公開されてきた23日、初回受付分からの抽選が行われ、筆者は運良く当選しました。当選の案内著名ボカロPで外れた方もいらしたようなので、かなりの難関だった模様ですが、せっかく試す機会を得られたので、まずはインプレッションを書いてみようと思います。 Cubaseユーザー以外の使い勝手VOCALOIDを開発するヤマハにとって、Cubaseを開発している独Steinbergは子会社。ヤマハのDAWにはCubase LEのライセンスが付属するなど、強い連携をしています。VOCALOIDと連動するVOCALOID Editor for Cubaseも早くから提供されていて、「VOCALOIDを使うならCubase」となるのは当然のことでし

s_ryuuki 2023/08/25

リンク

[UPDATE]Unityエディターに合成音声作成ウィンドウを追加する拡張をエーアイが提供。非営利目的なら「ユニティちゃん」音声が無償利用可能

本日、ゲーム開発環境向け音声合成エディター拡張「A.I.VOICE for GAMES」をリリースしました。ゲーム開発環境上で簡単に、音声の一括作成/変更/修正などを行う事ができ、ゲーム開発時の音声管理を改善します！https://t.co/BfQca5CwNV#アイボス #AIVOICE pic.twitter.com/VYYBffZJAB — A.I.VOICE公式 (@AIVOICE_PR) August 4, 2023 株式会社エーアイは、Unity向けのエディタ拡張として「A.I VOICE for GAMES」を発表しました。Unityエディター上に合成音声を作成できるウィンドウを追加し、テキストからすぐにセリフのwaveファイルを作成、プロジェクトで利用することができます。 https://www.ai-j.jp/topics/8942/ 「A.I VOICE for GA

s_ryuuki 2023/07/14

リンク

ASMRの収録が可能な入門用バイノーラルマイク「美耳」が店頭入荷、価格は約2.4万円28日発売

s_ryuuki 2023/06/27

音声合成

リンク

男女8人の声優の声で収録された掛け声音源“Pop Stars Shout!!”爆誕。膨大な掛け声を自在に叫ばせることが可能に｜DTMステーション

アイドルのライブ現場において、曲の間奏やサビなど、さまざまなタイミングでファンが叫ぶ「はい！はい！」、「それ！それ！それ！それ！」といった掛け声。またアイドルコールと呼ばれるものとして、「世界で一番あいしてる」、「世界で一番あいしてる」とか「やっとみつけたお姫様」のようなガチ恋口上、さらには「虎　火　人造　繊維　海女　振動　化繊」とか「タイガー！ファイヤー！サイバー！ファバー！ダイバー！バイバー！、ジャージャー！」のようなMIX。そしてステージの演者側からの掛け声である「せーの」、「もーいっかい」、「いっくよーー！」…といったものまで、ライブステージで登場するさまざまな掛け声をまとめた音源ライブラリー、「Pop Stars Shout!!」が新進気鋭のメーカー、TWO LANDSの第一弾製品として発表されるとともに、発売が開始されました（通常価格32,780円）。このPop Stars

s_ryuuki 2023/06/21

リンク

RVCの構造についてのメモ

はじめにこんにちは、nadareです。機械学習エンジニアで、普段はレコメンド・検索関連のお仕事をしています。いろんな競技プログラミングが好きです。 Retrieval-based-Voice-Conversion(以下RVC)という技術に関心を持ち、本家Retrieval-based-Voice-Conversion-WebUIやddPn08さん版RVC-WebUI、VC ClientにPR投げつつ勉強しています。最近は自分でRVCのモデル構造弄って遊んでいます。最近勉強した技術の実験場みたいな感じなので本家にPRださないとは思いますが、その過程でRVCの学習回りについていろいろ分かってきたので自分用にまとめたいと思います。 RVCの構成 RVCはTTS(text to speech)とVC(Voice Convertaion)のモデルであるVITSをベースに、VCに特化させ『模倣対

s_ryuuki 2023/06/18

リンク

語尾だけで朗読の印象を変えるコツ

以前「朗読での間（ま）と緩急でこれだけ変わる」という記事で、一部分を少しかえるだけで、印象が変わる、ということを書きました。今日は、「語尾」を変えるだけで、これだけ変わる、ことを詳しく紹介します。語尾に関しては、今までにも「朗読が暗く聞こえる要因」「朗読のセリフで喜怒哀楽を表現するコツ」でも語尾の読み方で印象が変わることを紹介しています。また語尾のくせについても「朗読の助詞上げのくせを直すコツ」でふれています。このように「語尾」の扱いは案外難しいのです。私がナレーションをするときに、いつも難しく感じるのが語尾の扱いです。実は語尾の扱いひとつで、全体の印象が全く変わるのです。ということは、語尾の扱いで全体の印象を変えることができるのです。これはナレーションだけではなく、朗読でも、日常生活でも同じです。かなり細かい話になっていきますが、チャレンジしてみてください。なお

s_ryuuki 2023/06/10

https://www.lang.osaka-u.ac.jp/~caris/articles/%E6%9D%B1%E4%BA%AC%E6%96%B9%E8%A8%80%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8B%E5%B9%B3%E5%8F%99%E6%96%87%E6%9C%AB%E3%81%AE%E4%B8%8B%E9%99%8D%E5%A2%97%E5%A4%A7%E7%8F%BE%E8%B1%A1.pdf

音声合成

リンク

【図解】超高性能AIボイスチェンジャー「RVC」のしくみ・コツ

はじめに ↑に貼った動画は話題の高性能ボイスチェンジャー「RVC」の変換例です（Creative Commonsで配布・改変が可能なライセンスの音声データを学習させたものです。BOOTHで無料配布中です）。今回の記事では動画の4つ+1の計5モデルを作成する中で見えてきたRVCの仕組みや使用時・モデル生成時のコツを紹介したいと思います。 BOOTHで学習済みモデル無料配布中(ライセンスはそれぞれ異なり、元データに準拠します) 注意事項本編に入る前にいくつか前提を明らかにしておきます。私自身、RVCや音声認識についての専門知識はほぼありません。RVCについて初めて知ったのは約2週間前で、そのレベルは初心者の域を出ないと思っていただければと思います。さらに、RVCのモデルであるHuBERTやトランスフォーマーに関する知識もあまりありません(論文もまともに読んでません)。したがって、この記事の

s_ryuuki 2023/05/20

音声合成

リンク

無料＆音声をリアルタイムで変換できるAIボイスチェンジャー「Koemake RVC Player」レビュー

オープンソースのAIボイスチェンジャー「Retrieval-based Voice Changer(RVC)」は、あらかじめ用意した音声から学習したモデルを作成し、リアルタイムで声質を変換することが可能です。このRVCで作成した音声変換モデルを手軽に実行できるボイスチェンジャーソフト「Koemake RVC player」を電々メイさんが無償でリリースしたので、実際に使ってみました。 Koemake Project https://koemake.com/ Koemake RVC Playerを動かすための推奨スペックは「VRAM4GB以上、NVIDIA製GPU搭載、Windows 10以上」となっているので注意が必要です。 Koemake RVC Playerをダウンロードするには、上記の配布サイトでユーザー登録をする必要があります。配布サイトにアクセスしたら、右上の「ログイン」をクリッ

s_ryuuki 2023/05/14

リンク

RVCのモデルを日本語向けに事前学習する - Qiita

こんにちは、nadareです。機械学習エンジニアで、普段はレコメンド・検索関連のお仕事をしています。いろんな競技プログラミングが好きです。最近はRetrieval-based-Voice-Conversion(以下RVC)という技術に関心を持ち、本家Retrieval-based-Voice-Conversion-WebUIやddPn08さん版RVC-WebUI、VC ClientにPR投げつつ勉強しています。本記事では、RVCのモデルで綺麗な日本語に変換するための学習テクニックを紹介します。 2023/05/24 追記続・RVCのモデルを日本語向けに事前学習するを公開しました。最新の内容にアップデートしたので、こちらもご参照ください。 2023/05/14 16:20追記これまではITAコーパス読み上げ音声を10~30epoch学習させたもので比較していて、その時点では事前学習

s_ryuuki 2023/05/14

リンク

GitHub - nadare881/voice-changer-vector-search: This is a repository for comparing voice changer results and searching datasets and trained models.

s_ryuuki 2023/05/05

音声合成

リンク

Koemake Project

Windowsで使える！AIボイスチェンジャー無料ダウンロードサイト

s_ryuuki 2023/05/01

音声合成

リンク

無料で自分の声を違うキャラクターなどの声にできるリアルタイム音声変換AIを簡単に使えるボイスチェンジャークライアント「VC Client」でどれぐらい声が変わるかレビュー

AI 技術の進化によって、絵や文章だけではなく音声変換もAIでリアルタイムに行うことが可能になりました。ボイスチェンジャーAIにはRVC(Retrieval-based Voice Changer)やMMVCなどさまざまな種類が存在しますが、「VC Client」は複数ボイスチェンジャーAI向けモデルに対応しており、簡単にリアルタイム音声変換ができるとのことなので実際に試してみました。 GitHub - w-okada/voice-changer https://github.com/w-okada/voice-changer GitHubのレポジトリにアクセスします。「事前ビルド済みのBinaryでの利用」の欄にあるテーブルで、「win」にある「通常」をクリック。ダウンロードリンクが表示されるので、「このままダウンロード」をクリックします。なお、VC ClientはZIP形式で配布され

s_ryuuki 2023/04/26

音声合成

リンク

生成系AIについて開発者が知っておくべきこと | gihyo.jp

この記事は、GitHub Blogに4月7日に掲載された「What developers need to know about generative AI」の翻訳記事です。昨今のニュースを席捲する「生成系AI（Generative AI⁠）⁠」ですが、厳密にはどのようなものでしょうか？生成系AIについて知っておくべきこと、また開発者にとってどのような意味を持つのかについて説明します。皆さんはこれまでに、ChatGPT、DALL-E、GitHub Copilotといった生成系AI（人工知能）ツールについて聞いたことがあるかと思います。生成系AIツールを利用すると、メールの件名からプログラミングコードの関数、アートに至るまで、誰でも瞬時にコンテンツを作成できるため、幅広い関心を集めています。様々な業界のコンテンツ制作に革命をもたらす可能性があることから、生成系AIとは何か、どのように利

s_ryuuki 2023/04/25

リンク

リアルタイム音声読み上げアプリを作ってみたら一瞬でできた

声が出せない環境でも通話に参加できる、リアルタイムな音声読み上げアプリをつくりました。タイピングした文字を読み上げてくれるというだけの超シンプルなものなので記事にするかどうかも迷ったのですが、技術的には個人的に少し面白かったのでかんたんに書いてみます。デモ背景 Discordで作業通話をよくするのですが、私があまり声が出せない環境なことが多いため、もともとGoogle翻訳の読み上げ機能を使って発声（？）したりしていました。ですがそういった既存の読み上げ機能では、文章を打ってから毎回再生ボタンを押さなければいけないので、通常の会話スピードに追いつこうとしてもどうしてもラグが発生します。またその性質上、短い相槌には不向きだったり、少し長い文章を発話しようとするとタイピング中しばらく沈黙が生まれることがあるなどの問題もありました。そこで、まるで普通に話しているかのような感じで、変換終

s_ryuuki 2023/04/22

音声合成

リンク

GitHub - serp-ai/bark-with-voice-clone: 🔊 Text-prompted Generative Audio Model - With the ability to clone voices

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

s_ryuuki 2023/04/22

音声合成

リンク

【悪用厳禁】自分の声を推しの声にリアルタイム変換する方法(全体公開)｜めーぷるしろっぷ｜pixivFANBOX

皆様はrvcというAIをご存知でしょうか？ RVCはAIボイスチェンジャーとも言うべき代物で、推しの声をAIに学習させることで、推しの声でおしゃべりすることが出来るようになります！学習させた音声は推しに迷惑が掛からないように、自己責任で利用してください。今回はRVCを使った音声の学習から、それを実際に使う方法...

s_ryuuki 2023/04/21

音声合成

リンク

GitHub - log1stics/voice-generator-webui: A multi-speaker, multilingual speech generation tool

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert