DMMボイスは、AI技術を活用した音声生成サービスです。 本サービスの特徴である多彩なボイスモデルから声を選ぶことで、感情あふれるセリフを自在に表現。ドラマティックなシーンのアフレコから心に響くナレーションまで、幅広いシーンにご活用いただけます。
VOCALOID、Synthesizer V、CeVIO AI、VoiSonaなどさまざまなAI歌声合成ソフトが競い合いながらここ数年で飛躍的な発展を続けていますが、ここにトンでもない威力を持つ高性能なAI歌声ソフトがやってきました。アメリカ・中国・フランスなど国のメンバーが集まるテクノロジー・ベンチャー企業、TIMEDOMAINが開発するACE Studioという、Windows/Mac用のソフトです。完全に日本語対応したソフトであるとともに、日本語の歌声データベースも多数備えており、生成された歌声は日本人の人間が歌っているものと聴き分けられないレベルのものになっています。 ただ、既存のAI歌声合成ソフトと大きく異なることが3つあります。まずは年額24,000円または月額3,500円というサブスク料金を支払うと、現在44種類ある歌声データベースすべてが利用できるという点。2つ目は歌をレコ
Parakeet株式会社でResearcherをしている金子(nadare)です。CPUで動く軽量AIボイスチェンジャーParavoの研究開発をしております。 本記事ではParavoのアピールポイントである0.06秒の遅延へのこだわりとそれを実現するための技術について解説したいと思います。 ボイスチェンジャーの歴史 従来型ボイスチェンジャー 従来のボイスチェンジャーは主にピッチ(声の高低)やフォルマント(声道の性質)を変え、それに様々なエフェクトをかけることで音声の変換を行っていました。これの実現にはハードウェアを使う方法、ソフトウェアを使う方法など様々ありますが、声に関する専門知識と入力する声を人力で調整するテクニックが必要でした。 疑似リアルタイムAIボイスチェンジャー 近年ではAI技術の発達により、ピッチやフォルマントを信号処理的に変えるのではなく、ディープラーニングの力によって特定
先日、個人開発していたzenncastというWebサービスをリリースしました。 Zennでトレンドになっている記事を、毎日AIが10分のラジオにして届けてくれるというサービスです。 ありがたいことに公開後はたくさんの方に試してもらえ、技術的な質問も多数いただきました。 このZennではzenncastの技術構成や仕組みを紹介します(プロンプトつき)。 作ったもの まずはエピソードを一つ選んで1分くらい聴いてみてください! AIラジオの雰囲気が掴めると思います。 主な機能・特徴 毎朝10分のラジオを生成 Zennでトレンドになっている記事を要約して紹介 お便りを投稿すると、翌日のエピソードでAIパーソナリティが拾ってコメントしてくれる BGMをつけて爽やかな聴き心地 これらのステップは人の手を介さずすべて自動化されています。 Spotifyなどの各種プラットフォームへの配信はSpotify
ダウンロードするだけじゃなく、起動させておいてください。 nike-ChatVRMをダウンロードして準備します。 git clone https://github.com/tegnike/nike-ChatVRM.git cd nike-ChatVRM npm install npm run devhttp://localhost:3000をブラウザで開きます。 OpenAI APIキーを入力して、閉じる(CLOSE)をクリックします。 初期画面 VOICEBOXを使うために、左上の歯車をクリックします。 設定画面合成音声エンジンの生成で、VOICEVOXを使用する(Japanese Only)を選択します。次に、声の調整で、ボイスタイプ選択で選択したい声を選択します。 会話をします。 会話画面会話したいことを入力してEnterをクリックすると、回答が出てきます。それに続いて音声で回答され
いま最先端を行くAI歌声合成ソフトのSynthesizer VやAI音声合成ソフトのVOICEPEAKなどを手掛けるDreamtonicsが、また新たな画期的なシステム、Vocoflexなるものを発表されるとともに、そのベータ版が公開されました。これは人の歌声を10秒程度録音して、その場でAIに学習させると、誰でもその歌声にリアルタイム変換できるというユニークなシステム。WindowsやMacの環境で動かすことができ、マイクに向かって歌えばその場で変換するし、VST/AUのプラグインとしてDAWに挿せば、ボーカルトラックをその学習した人の歌声に変換することができるという、驚くべきソフトです。 単にその10秒程度録音した人の歌声に変換できるだけでなく、AIが歌声を学習し、分析した結果を独特な手法でグラフィック化するUIを採用しているのもユニークな点。その結果、人の歌声の特徴をグラフィックで表
ひょんな事から、とある芸能事務所に入ることになり、 篁 響季、風祭 朝陽、小紫 桃果、山田 花音らは ユニット「LAUGH DiAMOND」を結成することになったが、デビューどころか、自分たちの曲も用意してもらえず目下日々自主練(≒放置)状態の憂き目に遭っている。 あまりにも放置されているため、自分たちで路上ライブを試みるが…。 そしていつの日か、ライブハウスでたくさんの曲で ライブをやることが LAUGH DiAMOND の目標に… そんな彼女たちに、 あなたの曲を歌わせてあげてくれませんか? 「LAUGH DiAMOND」プロジェクトとは? 最新のディープラーニング技術を駆使したAI歌声ライブラリでもあり、 「篁 響季(たかむら・ひびき)」「風祭 朝陽(かざまつり・あさひ)」 「小紫 桃果(こむらさき・ももか)」「山田 花音(やまだ・かのん)」 で結成された夢見るシンガーユニット「LA
N Air ライセンス契約書 このN Airライセンス契約書(以下「本契約」といいます)は、株式会社ドワンゴ(以下「当社」といいます)が無償で公開する動画配信用のソフトウェア(以下「N Air」といいます)の利用条件を規定したものです。N Airを利用しようとする人は、N Airを利用する前に、必ず本契約の内容を確認してご同意いただく必要があります。利用者が未成年の場合には、法定代理人(親権者等)に本契約を確認して頂き、事前に法定代理人(親権者等)の同意を得たうえでN Airをご利用ください。また、法人がN Airを利用する場合には、法人を代表して同意する権限のある人が本契約の内容に同意する必要があります。当社は、利用者(利用者が法人の場合には利用者の役員または従業員を意味します。以下同じ)がN Airを利用したことをもって本契約に同意したものとみなします。 なお、本契約は、当社の任意の判
[GDC 2024]フィクションの世界の言語を“らしく”音声化するためのアイデアとは。スクウェア・エニックスの音声合成技術セッションをレポート 編集部:Junpoco 北米時間の2023年3月18日に開幕したゲーム開発者カンファレンス「Game Developers Conference 2024」(GDC 2024)より,スクウェア・エニックスの技術セッション「Machine Learning Summit: Fictional Speech Synthesis to Avoid the Risk in Generative Contents」のレポートをお届けしよう。 ゲームのようにインタラクティブな体験が重要なデジタルコンテンツの制作において,ユーザー入力に柔軟に対応できる音声合成技術(text-to-speech technology)は有効な選択肢の一つである。 この音声合成技術
はじめに あけましておめでとうございます。去年は何といってもAIの年でした。ChatGPTやStableDiffusionが2022年末に登場してから、想像を超えてAI周りが進化しましたね。今回は年の初めという事もあり、前から興味のあったAITuberを作ってみる事にしました。 「AITuberを作ってみたら生成AIプログラミングがよくわかった件」 って本も買ったし。LLM部分だけでは無く、OBSやYouTubeのコメント取得などAITuberに必要な内容が一式揃っていて非常に参考になりました。 また、私はプログラミングは多少できますが、イラストや音楽に関しては全くスキルの無い人間です。そのためそのあたりに関してはStable DiffusionやSunoAIの力を借りて作っているので、結果的にオール生成AIという感じですね。そのあたりも含めて記事にまとめたいと思います。 TL;DR 素の
自分の声をまったく別のキャラクタの声に変えることを実現するAIボイスチェンジャー。エフェクトを使って自分の声を加工する従来のボイスチェンジャーとは異なり、自分の声は完全に消えて、まったく別人になりきれるのが特徴で、これまでもVoidolやCoeFontボイスチェンジャーといったものを記事でも紹介してきたほか、中国系のフリーウェアでもかなりの精度を持ったものがいろいろ登場してきています。 そうした中、12月25日、まったく新たなAIボイスチェンジャー、Parakeet.VC(パラキート・ブイシー)が、福島県のベンチャー企業、Parakeet株式会社からリリースされました。ここには東北ずん子や東北きりたん、またずんだもんをはじめ、計109種類の声が収録されており、ユーザーはそれらを選んで、マイクで話せばリアルタイムにキャラクタの声に変換することが可能です。既存のAIボイスチェンジャーと比較して
この記事はUnity Advent Calendar 2023の22日目 の記事です。 Unityゲーム開発におけるカットシーン制作での音声の尺を仮音声で確認したい A.I.VOICE for Gamesアンバサダーの一條です。 Timelineを使ってカットシーン制作を行っている際、セリフがどのくらいで終わりそうか仮の音声を用意してアタリをつける場面を考えます。 ・カメラ切替や演出のタイミングをどうすべきか?セリフを言った後にアニメーション、カメラ切替、エフェクトを切り替えたい ・ボイスありの場合、声優さんの収録がおわらないと長さが決めづらい。実際のボイスデータがどれくらいの長さになる? といったことを考えています。 合成音声ツールを使って、カットシーンの尺を調整するための仮音声があるといいのですが、自分で用意するのは面倒です。特に、セリフデータが大量にある場合はテキストから変換データを
この記事は本家Bert-VITS2のモデルをマージする方法を説明しています。Style-Bert-VITS2を使う場合は付属マージツールから面倒なことをすることなくマージできます。 宣伝 Style-Bert-VITS2のチュートリアル解説動画を作りました discordサーバー「AI声づくり研究会」によく出没しています 概要 Bertを組み合わせることで入力テキストに応じて感情豊かな読み上げ音声の生成が可能な Bert-VITS2 というTTS(Text-to-Speech、読み上げ音声合成)のライブラリがあります。 詳しくは 参照。 Bert-VITS2を使ってずんだもんの通常の声音のみを学習させたずんだもんのモデルと、感情豊かな別のモデルをうまくマージすることで、ずんだもんの声のまま感情豊かに読み上げることが出来るモデルを作ることができたので、その実験と、手っ取り早いマージツールの共
タイトルの通りvoicevoxとnode.jsを使って音声読み上げをさせます。 コード 最初に結論のコードを載せます。どーん import fetch from "node-fetch"; import fs from "fs" const text = "おはようございます" const res = await fetch(`http://localhost:50021/audio_query?text=${text}&speaker=0`, { method: "POST", headers: { 'Content-Type': 'application/json' } }) const query = await res.json() const sound_row = await fetch(`http://localhost:50021/synthesis?speaker=0&e
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く