「VOCALOID β-STUDIO」の試用申し込み受け付けが開始されたという記事を書くとともに、実際に申し込みもしていました。リリース前の協力者による作例が少しずつ公開されてきた23日、初回受付分からの抽選が行われ、筆者は運良く当選しました。 当選の案内著名ボカロPで外れた方もいらしたようなので、かなりの難関だった模様ですが、せっかく試す機会を得られたので、まずはインプレッションを書いてみようと思います。 Cubaseユーザー以外の使い勝手VOCALOIDを開発するヤマハにとって、Cubaseを開発している独Steinbergは子会社。ヤマハのDAWにはCubase LEのライセンスが付属するなど、強い連携をしています。VOCALOIDと連動するVOCALOID Editor for Cubaseも早くから提供されていて、「VOCALOIDを使うならCubase」となるのは当然のことでし
本日、ゲーム開発環境向け音声合成エディター拡張「A.I.VOICE for GAMES」をリリースしました。 ゲーム開発環境上で簡単に、音声の一括作成/変更/修正などを行う事ができ、ゲーム開発時の音声管理を改善します!https://t.co/BfQca5CwNV#アイボス #AIVOICE pic.twitter.com/VYYBffZJAB — A.I.VOICE公式 (@AIVOICE_PR) August 4, 2023 株式会社エーアイは、Unity向けのエディタ拡張として「A.I VOICE for GAMES」を発表しました。Unityエディター上に合成音声を作成できるウィンドウを追加し、テキストからすぐにセリフのwaveファイルを作成、プロジェクトで利用することができます。 https://www.ai-j.jp/topics/8942/ 「A.I VOICE for GA
アイドルのライブ現場において、曲の間奏やサビなど、さまざまなタイミングでファンが叫ぶ「はい!はい!」、「それ!それ!それ!それ!」といった掛け声。またアイドルコールと呼ばれるものとして、「世界で一番あいしてる」、「世界で一番あいしてる」とか「やっとみつけたお姫様」のようなガチ恋口上、さらには「虎 火 人造 繊維 海女 振動 化繊」とか「タイガー!ファイヤー!サイバー!ファバー!ダイバー!バイバー!、ジャージャー!」のようなMIX。そしてステージの演者側からの掛け声である「せーの」、「もーいっかい」、「いっくよーー!」…といったものまで、ライブステージで登場するさまざまな掛け声をまとめた音源ライブラリー、「Pop Stars Shout!!」が新進気鋭のメーカー、TWO LANDSの第一弾製品として発表されるとともに、発売が開始されました(通常価格32,780円)。 このPop Stars
はじめに こんにちは、nadareです。 機械学習エンジニアで、普段はレコメンド・検索関連のお仕事をしています。いろんな競技プログラミングが好きです。 Retrieval-based-Voice-Conversion(以下RVC)という技術に関心を持ち、本家Retrieval-based-Voice-Conversion-WebUIやddPn08さん版RVC-WebUI、VC ClientにPR投げつつ勉強しています。 最近は自分でRVCのモデル構造弄って遊んでいます。最近勉強した技術の実験場みたいな感じなので本家にPRださないとは思いますが、その過程でRVCの学習回りについていろいろ分かってきたので自分用にまとめたいと思います。 RVCの構成 RVCはTTS(text to speech)とVC(Voice Convertaion)のモデルであるVITSをベースに、VCに特化させ『模倣対
以前「朗読での間(ま)と緩急でこれだけ変わる」という記事で、一部分を少しかえるだけで、印象が変わる、ということを書きました。 今日は、「語尾」を変えるだけで、これだけ変わる、ことを詳しく紹介します。 語尾に関しては、今までにも 「朗読が暗く聞こえる要因」 「朗読のセリフで喜怒哀楽を表現するコツ」でも語尾の読み方で印象が変わることを紹介しています。 また語尾のくせについても 「朗読の助詞上げのくせを直すコツ」でふれています。 このように「語尾」の扱いは案外難しいのです。 私がナレーションをするときに、いつも難しく感じるのが語尾の扱いです。 実は語尾の扱いひとつで、全体の印象が全く変わるのです。 ということは、語尾の扱いで全体の印象を変えることができるのです。 これはナレーションだけではなく、朗読でも、日常生活でも同じです。 かなり細かい話になっていきますが、チャレンジしてみてください。 なお
はじめに ↑に貼った動画は話題の高性能ボイスチェンジャー「RVC」の変換例です(Creative Commonsで配布・改変が可能なライセンスの音声データを学習させたものです。BOOTHで無料配布中です)。今回の記事では動画の4つ+1の計5モデルを作成する中で見えてきたRVCの仕組みや使用時・モデル生成時のコツを紹介したいと思います。 BOOTHで学習済みモデル無料配布中(ライセンスはそれぞれ異なり、元データに準拠します) 注意事項 本編に入る前にいくつか前提を明らかにしておきます。私自身、RVCや音声認識についての専門知識はほぼありません。RVCについて初めて知ったのは約2週間前で、そのレベルは初心者の域を出ないと思っていただければと思います。さらに、RVCのモデルであるHuBERTやトランスフォーマーに関する知識もあまりありません(論文もまともに読んでません)。 したがって、この記事の
オープンソースのAIボイスチェンジャー「Retrieval-based Voice Changer(RVC)」は、あらかじめ用意した音声から学習したモデルを作成し、リアルタイムで声質を変換することが可能です。このRVCで作成した音声変換モデルを手軽に実行できるボイスチェンジャーソフト「Koemake RVC player」を電々メイさんが無償でリリースしたので、実際に使ってみました。 Koemake Project https://koemake.com/ Koemake RVC Playerを動かすための推奨スペックは「VRAM4GB以上、NVIDIA製GPU搭載、Windows 10以上」となっているので注意が必要です。 Koemake RVC Playerをダウンロードするには、上記の配布サイトでユーザー登録をする必要があります。配布サイトにアクセスしたら、右上の「ログイン」をクリッ
こんにちは、nadareです。 機械学習エンジニアで、普段はレコメンド・検索関連のお仕事をしています。いろんな競技プログラミングが好きです。 最近はRetrieval-based-Voice-Conversion(以下RVC)という技術に関心を持ち、本家Retrieval-based-Voice-Conversion-WebUIやddPn08さん版RVC-WebUI、VC ClientにPR投げつつ勉強しています。 本記事では、RVCのモデルで綺麗な日本語に変換するための学習テクニックを紹介します。 2023/05/24 追記 続・RVCのモデルを日本語向けに事前学習するを公開しました。最新の内容にアップデートしたので、こちらもご参照ください。 2023/05/14 16:20追記 これまではITAコーパス読み上げ音声を10~30epoch学習させたもので比較していて、その時点では事前学習
AI技術の進化によって、絵や文章だけではなく音声変換もAIでリアルタイムに行うことが可能になりました。ボイスチェンジャーAIにはRVC(Retrieval-based Voice Changer)やMMVCなどさまざまな種類が存在しますが、「VC Client」は複数ボイスチェンジャーAI向けモデルに対応しており、簡単にリアルタイム音声変換ができるとのことなので実際に試してみました。 GitHub - w-okada/voice-changer https://github.com/w-okada/voice-changer GitHubのレポジトリにアクセスします。 「事前ビルド済みのBinaryでの利用」の欄にあるテーブルで、「win」にある「通常」をクリック。 ダウンロードリンクが表示されるので、「このままダウンロード」をクリックします。なお、VC ClientはZIP形式で配布され
この記事は、GitHub Blogに4月7日に掲載された「What developers need to know about generative AI」の翻訳記事です。 昨今のニュースを席捲する「生成系AI(Generative AI)」ですが、厳密にはどのようなものでしょうか? 生成系AIについて知っておくべきこと、また開発者にとってどのような意味を持つのかについて説明します。 皆さんはこれまでに、ChatGPT、DALL-E、GitHub Copilotといった生成系AI(人工知能)ツールについて聞いたことがあるかと思います。生成系AIツールを利用すると、メールの件名からプログラミングコードの関数、アートに至るまで、誰でも瞬時にコンテンツを作成できるため、幅広い関心を集めています。 様々な業界のコンテンツ制作に革命をもたらす可能性があることから、生成系AIとは何か、どのように利
声が出せない環境でも通話に参加できる、リアルタイムな音声読み上げアプリをつくりました。 タイピングした文字を読み上げてくれるというだけの超シンプルなものなので記事にするかどうかも迷ったのですが、技術的には個人的に少し面白かったのでかんたんに書いてみます。 デモ 背景 Discordで作業通話をよくするのですが、私があまり声が出せない環境なことが多いため、もともとGoogle翻訳の読み上げ機能を使って発声(?)したりしていました。 ですがそういった既存の読み上げ機能では、文章を打ってから毎回再生ボタンを押さなければいけないので、通常の会話スピードに追いつこうとしてもどうしてもラグが発生します。 またその性質上、短い相槌には不向きだったり、少し長い文章を発話しようとするとタイピング中しばらく沈黙が生まれることがあるなどの問題もありました。 そこで、まるで普通に話しているかのような感じで、変換終
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く