![無料で誰でも「ずんだもん」の声になれるのだ! AIボイチェン「ParakeetVC」でなりきってみた/現在はアルファ版。全109キャラクター&全機能が無料で使えるのは1月末まで!【やじうまの杜】](https://cdn-ak-scissors.b.st-hatena.com/image/square/8e61ff199aa1578ff951ab41ef7871b54e414ae7/height=288;version=1;width=512/https%3A%2F%2Fforest.watch.impress.co.jp%2Fimg%2Fwf%2Flist%2F1560%2F956%2F001.jpg)
モチベーション 「LipSync」で検索をすると、音声を解析して2D/3Dのモデルの口の形状を発話の音声と同期させる話が出てくると思います。 LipSyncが必要になるケースは、リアルタイムにマイクなどで収音した音声をベースに口を動かしたい場合(VTuberのLive2DやVRSNSのアバター)や、事前に収録した音声に細かい調整をせずに直接アニメーションを生成したい場合などがほとんどだからでしょう。 そのため、そのようなユースケースを想定した音声解析ベースのライブラリやアセットがほとんどです。 ところで、ChatGPTのAPIで生成した会話のテキストは、VOICEVOXなどの音声合成サービスを利用することで音声データに変換し利用することができます。 この場合、音声ではなくリアルタイムに生成されるテキストをベースにLipSyncをしたい、という上記とは異なる需要があります。 もちろん音声合成
それを、完全とは言えないまでも、かなり元の人に肉薄する品質で再現できる技術がDiff-SVCです。元になる音声データが1時間くらいあれば、与えた音声を、希望する声質に変換することが可能になるのです。 しかも、基本的にお金はかかりません。AI歌声合成が、ちょっとハードルは高いものの、無料で使えて、データさえ集めてくれば誰でも手が出せる。AI歌声合成の民主化と言っていいでしょう。 筆者は10年近く前に旅立った妻の歌声を、UTAU-Synthという、短く切り出した音素をピッチや長さを合わせながら組み合わせていくソフトウェアで再構成しています。1フレーズずつ音素を繋いで、できるだけ不自然にならないように調整していくため、短くて数日、長いと数カ月も時間をかけて完成させていきますが、もうその作業をしなくてもよくなります。 ただ、自分で歌って、もしくは他のボーカルシンセソフトでボーカルトラックをDiff
ホロライブ所属の人気VTuberであるさくらみこさんの声を参考にAIによる音声合成を行い、さくらみこさん本人のツイートをそのまま読み上げる「棒読みこち」が公開されています。 さくらみこさんの声を参考にして作られた音声合成AI、棒読みみこち、生まれました‼️ みこちのツイートを、たまーに読み上げます‼️#miko_Art pic.twitter.com/QiQUvck4ME— 棒読みこち (@bouyomiko35) 例えば、以下のさくらみこさんのツイート。 ショーシャンクの空に みこが目の前が真っ暗になったら 思い出してまた観よう、と思った そんな名作でした???? 泣いたけど気持ちよくGW楽しんでいけるぜぇ! 必死に生きよう⛏#みこ市長— さくらみこ????SakuraMiko (@sakuramiko35) これを読み上げたものが以下。本人の声でツイートを読み上げています。やや人工的な
日進月歩というより、秒進分歩で進化している感じのある音声合成、歌声合成の世界ですが、また新たな革命ともいえるAI音声合成ソフトが誕生しました。これまでDTMステーションでも何度も取り上げてきた歌声合成ソフト、Synthesizer Vを開発するDreamtonics株式会社と株式会社AHSと共同開発する形で、もはや人間の喋り声にしか聴こえない音声合成ソフト、VOICEPEAKを発表し、3月11日から発売を開始するのです。Synthesizer Vと同様、Windows、Mac、Linuxでも動くマルチプラットフォームソフトで価格はダウンロード版で23,800円(税込み)となっています。 このソフト「VOICEPEAK 商用可能 6ナレーターセット」という製品名になっていますが、実際には女性3人+男性3人+女の子1人=7人の声を切り替えることが可能なAI音声合成ソフトで、テキストを入力すれば
人間ではなくプログラムによって特定のテキストを読み上げさせる音声合成ソフトは数多く存在しています。ソフトに使われる音声合成エンジンにはさまざまな種類があり、複数の音声合成エンジンや音声ライブラリを使うことができる汎用合成音声エディタ「ユニコエ」をビスさんが公開しています。 ユニコエ 公式サイト https://sites.google.com/view/unicoe/%E3%83%9B%E3%83%BC%E3%83%A0 ユニコエがどういうアプリなのかは以下のムービーを見るとよくわかります。 【ユニコエ】アプリ紹介 - ニコニコ動画 ユニコエでは音声合成エンジンや音声ライブラリを複数登録することができます。 選択した音声合成エンジンが、中央に入力されたテキストを読み上げてくれます。 イントネーションはフレーズごとに調整可能。 また、音声ライブラリの立ち絵も表示されます。 ユニコエは、公式サ
ディー・エヌ・エー(DeNA)は5月12日、開発を進めているAIを活用した「音声変換AI」のトライアルを試験利用することができる「VOICE AVATAR 七声ニーナ」を公開した。PCやスマートフォンのブラウザ上で体験することが可能となっている。 これは、自分の声で話しかけて音声を入力すると、その音声が七声ニーナ(CV:高田憂希)の声に変換されるというもの。VOICE AVATAR 七声ニーナでは、入力されたユーザーの音声から話者に依存しない音の情報を抽出し、それをもとにキャラクターの音声を生成。これにより誰の声であっても、事前にユーザーの音声を収録をしたり、文字起こしをしたりすることなく、自然なキャラクターの声に変換することを可能としている。同社ではトライアルを通じて、技術進化の方向性を検証するとともに、より大きな発展に向けた技術蓄積を行っていくという。 現在もAIを用いた完全なキャラク
AIを活用した技術の進歩。革新。 幅広いサービスの利用が、当たり前になった昨今、 これからの私たちが、提供できる価値とはいったい何か。 それは、DeNA × AIだからできる 「人」と「テクノロジー」が、組み合わさった未来です。 DeNA × AIが持つ 「意図や思いを汲み取った、質の高い発想力」、 「多岐にわたる経験を元にした、AI、データサイエンスの実践力」、 「複雑なシステムの開発、安定した稼働ができる技術力」など。 それぞれの強みを組み合わせることで、 まだどこにもない「モノづくり」や「コトがら」を、生み出していきます。 ともに、技術の向上を。 ともに、革新の追求を。 ともに、今よりも豊かな未来を。 さあ、DeNA × AIと 新しいモノづくりを一緒に。
❤️ Check out Weights & Biases here and sign up for a free demo: https://www.wandb.com/papers The shown blog post is available here: https://www.wandb.com/articles/fundamentals-of-neural-networks 📝 The paper "Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis" and audio samples are available here: https://arxiv.org/abs/1806.04558 https://google.github.io/tacotr
何をした? Youtube上に公開されている動画の音声から、ディープラーニング技術を用いた音声合成ツールを構築しました。 今回対象にしたのは、バーチャルユーチューバー・にじさんじの委員長こと 月ノ美兎 さん(Youtubeチャンネル) です。 ※選出理由は、単純に私がYoutube上で一番推している方だからです。 成果 動画から抽出した音声と、音声を文章に起こしたテキストの組み合わせのデータセット約50分ぶんを教師データとして学習した結果 ※学習に必要なデータ量は最低でも1時間程度と言われているので、まだまだ足りていません… 月ノ美兎さんの音声合成ツールを作ってみた https://t.co/YVdWW9vREb via @YouTube — K2 (@K2ML2) May 29, 2020 発話内容が不明瞭な箇所がありますが、一応ご本人の声に近い音声を作成することができているかと思います
Introduction このチュートリアルではWaveNetを使ったボコーダーにより人の音声を合成します。実行できるチュートリアルは最下部にあります。 ボコーダーとは、音声をパラメータ化した入力を元に音声を合成することです。例えば、ロボットボイスは、人の音声からその発話の特徴量をパラメータとして取得し、それを元にロボットの音色の音声を合成しています。そのため、音声合成で一般的なText-to-Speech(TTS)のように文字列を入力とするのではなく、音声を入力として音声合成します。 WaveNetは、生の音声波形を生成するDeep Neural Networkです。 上記の画像のように、音声波形はあるサンプリングレートで毎時刻の値で波形が保存されていますが、それをWaveNetは生成します。また、今回はボコーダーということで、ランダムに音声を生成するのではなく、入力した音声と似た発話の
当時NTTが研究していたのは、隠れマルコフモデル(Hidden Markov Model)と呼ばれる確率モデルを用いた音声合成だった。これは、周波数や持続時間などの組み合わせを機械学習で覚えさせ、音声波形を生成(推定)するもので、少量の音声から短期間で人の声を再現できるようになったという。 「声優さんの負担も少なくなりましたし、録音から2週間くらいでシステムが完成するようになりました。製作費も数十万程度にまで下がったのですが、声質や抑揚といった点では波形接続方式にかなわず、特に想定したシナリオから外れたような言葉をしゃべらせようとすると、機械っぽさが出てしまうのが難点でした」(鳥居さん) 「音声合成×ディープラーニング」の可能性 そこで研究者たちが目を付けたのが「深層学習(ディープニューラルネットワーク=DNN)」だ。NTTでも4年ほど前から研究を重ねており、2017年12月に音声合成ソフ
どうも、クラゲです。 今回は音声合成を使ってRaspberry Piに日本語をしゃべらせる方法を紹介します。任意のテキストを即時実行して喋らせることが可能です。それでは動画で聞いてみましょう! この動画では自然に聞こえるように、言葉を選んでテキストにしています。例えばニュースや天気などをそのまましゃべらせると、ちょっとぎこちなかったりもしますが、それも愛嬌です。 では作り方です。 [TOC] 必要なもの スピーカー 今回はオーディオ出力端子のステレオミニジャックに繋がるスピーカーを使います。スピーカーのない人は、HDMIでディスプレーのスピーカーから喋らせることもできます。 Open JTalkのインストール 音声合成のエンジン、辞書、音声データを一気にインストールします。 コマンド一発でサクッとできます。 sudo apt install -y open-jtalk open-jtalk
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く