[B! 音声合成] petite_blueのブックマーク

無料で誰でも「ずんだもん」の声になれるのだ！ AIボイチェン「ParakeetVC」でなりきってみた／現在はアルファ版。全109キャラクター＆全機能が無料で使えるのは1月末まで！【やじうまの杜】

petite_blue 2024/01/16

リンク

VOICEVOXのAudioQueryを利用した音声合成に対する非音声ベースのLipSyncシステム

モチベーション「LipSync」で検索をすると、音声を解析して2D/3Dのモデルの口の形状を発話の音声と同期させる話が出てくると思います。 LipSyncが必要になるケースは、リアルタイムにマイクなどで収音した音声をベースに口を動かしたい場合（VTuberのLive2DやVR SNSのアバター）や、事前に収録した音声に細かい調整をせずに直接アニメーションを生成したい場合などがほとんどだからでしょう。そのため、そのようなユースケースを想定した音声解析ベースのライブラリやアセットがほとんどです。ところで、ChatGPTのAPIで生成した会話のテキストは、VOICEVOXなどの音声合成サービスを利用することで音声データに変換し利用することができます。この場合、音声ではなくリアルタイムに生成されるテキストをベースにLipSyncをしたい、という上記とは異なる需要があります。もちろん音声合成

petite_blue 2023/11/08

音声合成

リンク

3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した（CloseBox） | テクノエッジ TechnoEdge

わずか3秒の元音声から本人そっくりな音声合成が可能な技術「VALL-E X」が誰でも使える形で公開されました。オープンソース版で、ローカルマシンからWebUIで利用できます。さっそくインストールして使ってみました。以前、ディープラーニングベースの音声・歌声合成ソフトであるDiff-SVC、リアルタイム処理が可能なAIボイチェンRVCを紹介したとき、自分は記事タイトルに「驚異の」という形容詞を付けました。それでも学習には数十分の本人による音声データが必要で、そこまでのデータを用意するのは容易ではありません。それに対してVALL-E Xでは元データが3秒あれば本人に似た声を生成できるのです。

petite_blue 2023/08/29

音声合成

リンク

好きな人の声で歌える、破壊的でヤバい「Diff-SVC」はAI歌声合成を民主化するのか（CloseBox） | テクノエッジ TechnoEdge

それを、完全とは言えないまでも、かなり元の人に肉薄する品質で再現できる技術がDiff-SVCです。元になる音声データが1時間くらいあれば、与えた音声を、希望する声質に変換することが可能になるのです。しかも、基本的にお金はかかりません。AI歌声合成が、ちょっとハードルは高いものの、無料で使えて、データさえ集めてくれば誰でも手が出せる。AI歌声合成の民主化と言っていいでしょう。筆者は10年近く前に旅立った妻の歌声を、UTAU-Synthという、短く切り出した音素をピッチや長さを合わせながら組み合わせていくソフトウェアで再構成しています。1フレーズずつ音素を繋いで、できるだけ不自然にならないように調整していくため、短くて数日、長いと数カ月も時間をかけて完成させていきますが、もうその作業をしなくてもよくなります。ただ、自分で歌って、もしくは他のボーカルシンセソフトでボーカルトラックをDiff

petite_blue 2023/01/20

リンク

うみゆき@AI研究 on Twitter: "なにやら中国の方が作られた音声合成AI「MoeGoe」の2891人の日本アニメキャラの音声モデルが公開されてしまった！！Hugging Faceでデモが試せる！早速まどマギの５人に喋ってもらった！！うわうわうわ！ヤバいよヤバい本当… https://t.co/IsmQsTS8is"

なにやら中国の方が作られた音声合成 AI「MoeGoe」の2891人の日本アニメキャラの音声モデルが公開されてしまった！！Hugging Faceでデモが試せる！早速まどマギの５人に喋ってもらった！！うわうわうわ！ヤバいよヤバい本当… https://t.co/IsmQsTS8is

petite_blue 2022/11/06

音声合成

リンク

音声合成業界に激震! もはや人間の喋り声、入力文字読み上げソフトVOICEPEAKはビジネス用途でも自由に利用可能｜DTMステーション

日進月歩というより、秒進分歩で進化している感じのある音声合成、歌声合成の世界ですが、また新たな革命ともいえるAI 音声合成ソフトが誕生しました。これまでDTMステーションでも何度も取り上げてきた歌声合成ソフト、Synthesizer Vを開発するDreamtonics株式会社と株式会社AHSと共同開発する形で、もはや人間の喋り声にしか聴こえない音声合成ソフト、VOICEPEAKを発表し、3月11日から発売を開始するのです。Synthesizer Vと同様、Windows、Mac、Linuxでも動くマルチプラットフォームソフトで価格はダウンロード版で23,800円(税込み)となっています。このソフト「VOICEPEAK 商用可能 6ナレーターセット」という製品名になっていますが、実際には女性3人＋男性3人＋女の子1人＝7人の声を切り替えることが可能なAI 音声合成ソフトで、テキストを入力すれば

petite_blue 2022/02/18

音声合成

リンク

無料でさまざまな音声合成エンジンや音声ライブラリを扱える汎用合成音声エディタ「ユニコエ」が登場

人間ではなくプログラムによって特定のテキストを読み上げさせる音声合成ソフトは数多く存在しています。ソフトに使われる音声合成エンジンにはさまざまな種類があり、複数の音声合成エンジンや音声ライブラリを使うことができる汎用合成音声エディタ「ユニコエ」をビスさんが公開しています。ユニコエ公式サイト https://sites.google.com/view/unicoe/%E3%83%9B%E3%83%BC%E3%83%A0 ユニコエがどういうアプリなのかは以下のムービーを見るとよくわかります。【ユニコエ】アプリ紹介 - ニコニコ動画ユニコエでは音声合成エンジンや音声ライブラリを複数登録することができます。選択した音声合成エンジンが、中央に入力されたテキストを読み上げてくれます。イントネーションはフレーズごとに調整可能。また、音声ライブラリの立ち絵も表示されます。ユニコエは、公式サ

petite_blue 2022/01/06

音声合成

リンク

VOICEVOX | 無料のテキスト読み上げ・歌声合成ソフトウェア

オープンソースVOICEVOX は OSS（オープンソース・ソフトウェア）版 VOICEVOX をもとに構築されています。製品版と OSS 版の違いやモジュール構成は VOICEVOX の全体構成をご参照ください。ソフトウェア部分は Electron + Vue 、音声合成エンジン部分は Python + FastAPI です。追加したい・改善したい機能があれば、ぜひ開発にご参加ください。

petite_blue 2021/08/01

音声合成

リンク

誰の声でもキャラの声に--DeNA、AIを活用した音声変換サービスのプロトタイプを公開

ディー・エヌ・エー（DeNA）は5月12日、開発を進めているAIを活用した「音声変換AI」のトライアルを試験利用することができる「VOICE AVATAR 七声ニーナ」を公開した。PCやスマートフォンのブラウザ上で体験することが可能となっている。これは、自分の声で話しかけて音声を入力すると、その音声が七声ニーナ（CV：高田憂希）の声に変換されるというもの。VOICE AVATAR 七声ニーナでは、入力されたユーザーの音声から話者に依存しない音の情報を抽出し、それをもとにキャラクターの音声を生成。これにより誰の声であっても、事前にユーザーの音声を収録をしたり、文字起こしをしたりすることなく、自然なキャラクターの声に変換することを可能としている。同社ではトライアルを通じて、技術進化の方向性を検証するとともに、より大きな発展に向けた技術蓄積を行っていくという。現在もAIを用いた完全なキャラク

petite_blue 2021/05/13

リンク

DeNA×AI｜技術と、革新と、未来と。

AIを活用した技術の進歩。革新。幅広いサービスの利用が、当たり前になった昨今、これからの私たちが、提供できる価値とはいったい何か。それは、DeNA × AIだからできる「人」と「テクノロジー」が、組み合わさった未来です。 DeNA × AIが持つ「意図や思いを汲み取った、質の高い発想力」、「多岐にわたる経験を元にした、AI、データサイエンスの実践力」、「複雑なシステムの開発、安定した稼働ができる技術力」など。それぞれの強みを組み合わせることで、まだどこにもない「モノづくり」や「コトがら」を、生み出していきます。ともに、技術の向上を。ともに、革新の追求を。ともに、今よりも豊かな未来を。さあ、DeNA × AIと新しいモノづくりを一緒に。

petite_blue 2021/05/13

音声合成

リンク

無料で公開されている音声合成サービスが凄いと話題に「ボイロ殺しに来てる」「ベタ打ちで自然に話せる」

CoeFont (コエフォント) @coefont Web音声合成サービス『CoeFont STUDIO』 coefont.studio をリリースしました。全サービス無料公開。すべてのクリエイターに声を届けます。#CoeFontSTUDIO #CoeFont pic.twitter.com/Wu5AFJpZ9d 2021-04-23 12:44:30

petite_blue 2021/04/26

音声合成

リンク

Google's AI Clones Your Voice After Listening for 5 Seconds! 🤐

❤️ Check out Weights & Biases here and sign up for a free demo: https://www.wandb.com/papers The shown blog post is available here: https://www.wandb.com/articles/fundamentals-of-neural-networks 📝 The paper "Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis" and audio samples are available here: https://arxiv.org/abs/1806.04558 https://google.github.io/tacotr

petite_blue 2020/08/17

リンク

月ノ美兎さんの音声合成ツール(Text To Speech) を作ってみた - Qiita

何をした？ Youtube上に公開されている動画の音声から、ディープラーニング技術を用いた音声合成ツールを構築しました。今回対象にしたのは、バーチャルユーチューバー・にじさんじの委員長こと月ノ美兎さん（Youtubeチャンネル）　です。 ※選出理由は、単純に私がYoutube上で一番推している方だからです。成果動画から抽出した音声と、音声を文章に起こしたテキストの組み合わせのデータセット約50分ぶんを教師データとして学習した結果 ※学習に必要なデータ量は最低でも1時間程度と言われているので、まだまだ足りていません… 月ノ美兎さんの音声合成ツールを作ってみた https://t.co/YVdWW9vREb via @YouTube — K2 (@K2ML2) May 29, 2020 発話内容が不明瞭な箇所がありますが、一応ご本人の声に近い音声を作成することができているかと思います

petite_blue 2020/05/30

リンク

ChainerでWaveNetによる音声合成のチュートリアルを書いてみた - 金融と工学のあいだ

Introduction このチュートリアルではWaveNetを使ったボコーダーにより人の音声を合成します。実行できるチュートリアルは最下部にあります。ボコーダーとは、音声をパラメータ化した入力を元に音声を合成することです。例えば、ロボットボイスは、人の音声からその発話の特徴量をパラメータとして取得し、それを元にロボットの音色の音声を合成しています。そのため、音声合成で一般的なText-to-Speech(TTS)のように文字列を入力とするのではなく、音声を入力として音声合成します。 WaveNetは、生の音声波形を生成するDeep Neural Networkです。上記の画像のように、音声波形はあるサンプリングレートで毎時刻の値で波形が保存されていますが、それをWaveNetは生成します。また、今回はボコーダーということで、ランダムに音声を生成するのではなく、入力した音声と似た発話の

petite_blue 2018/08/18

リンク

Text-to-Speech AI: Lifelike Speech Synthesis | Google Cloud

Convert text into natural-sounding speech using an API powered by the best of Google’s AI techno logies. New customers get $300 in free credits to spend on Text-to-Speech.

petite_blue 2018/07/20

リンク

ディープラーニングで急激に進化――意外と奥が深い「音声合成」の世界

当時NTTが研究していたのは、隠れマルコフモデル（Hidden Markov Model）と呼ばれる確率モデルを用いた音声合成だった。これは、周波数や持続時間などの組み合わせを機械学習で覚えさせ、音声波形を生成（推定）するもので、少量の音声から短期間で人の声を再現できるようになったという。「声優さんの負担も少なくなりましたし、録音から2週間くらいでシステムが完成するようになりました。製作費も数十万程度にまで下がったのですが、声質や抑揚といった点では波形接続方式にかなわず、特に想定したシナリオから外れたような言葉をしゃべらせようとすると、機械っぽさが出てしまうのが難点でした」（鳥居さん）「音声合成×ディープラーニング」の可能性そこで研究者たちが目を付けたのが「深層学習（ディープニューラルネットワーク＝DNN）」だ。NTTでも4年ほど前から研究を重ねており、2017年12月に音声合成ソフ

petite_blue 2018/02/17

音声合成

リンク

ラズパイで音声合成をしゃべらせよう

どうも、クラゲです。今回は音声合成を使ってRaspberry Piに日本語をしゃべらせる方法を紹介します。任意のテキストを即時実行して喋らせることが可能です。それでは動画で聞いてみましょう！この動画では自然に聞こえるように、言葉を選んでテキストにしています。例えばニュースや天気などをそのまましゃべらせると、ちょっとぎこちなかったりもしますが、それも愛嬌です。では作り方です。 [TOC] 必要なものスピーカー今回はオーディオ出力端子のステレオミニジャックに繋がるスピーカーを使います。スピーカーのない人は、HDMIでディスプレーのスピーカーから喋らせることもできます。 Open JTalkのインストール音声合成のエンジン、辞書、音声データを一気にインストールします。コマンド一発でサクッとできます。 sudo apt install -y open-jtalk open-jtalk