[B! 音声] stealthinuのブックマーク

Home | Cartesia

The platform for real-time, multimodal intelligence. Generate seamless speech, power voice applications, and fine-tune your own voice models on the fastest real-time AI platform.

stealthinu 2025/03/14

ワンショット音声だけで声のコピーできるサービス。

リンク

RVCより新技術「SBV2」応用のAIボイスチェンジャーアプリ「リアボVC 」💜使用の際は若干早口で活舌よく話してください(ゆかりねっとを高速化&改良した様な仕組みのため) - poipoipoi - BOOTH

【老若男女誰でも現実の20代女性に声変わりしてLINEやVRCで通話できるようになる無料AIボイチェンアプリです】使用の際はハッキリ活舌よく話してください(ゆかりねっとを高速化した仕組みに近いです) RTX2070以下の場合、steam VRの解像度を0.6くらいに下げ、アバターを表示する数を設定で減らしてください ◈ 商品説明 ◈　マイクに向かってハッキリ活舌よく話すと綺麗に音声認識されて、うまく女子に声変わりできやすいです(高速化したゆかりねっとの様な仕組みです)boothにログインするのが面倒で本体を直リンクから今すぐダウンロードしたい方へ↓ 改善版v34 https://huggingface.co/ki8dyh45/VC-app-style-bert-vits2-10models-Riabo/resolve/main/RiaboVC-v34.7z?download=true 7

stealthinu 2025/03/13

リアルタイム変換なのにStyle-Bert-VITS2使う意味ってそんなあるんだろうか。一回テキストまで落としてから合成してるってあるけどそれでリアルタイム性確保はむつかしそう。ParavoとかBeatriceとは別方向っぽいのかな。

リンク

産総研：日本語音声基盤モデル「いざなみ」「くしなだ」を公開

発表・掲載日：2025/03/10 日本語音声基盤モデル「いざなみ」「くしなだ」を公開－少量の日本語音声データで高性能な音声AIを構築可能に－ポイント豊かな感情表現を含む6万時間の日本語音声データから2種類の日本語音声基盤モデルを構築モデルの改良が容易な「いざなみ」と感情認識や音声認識の能力がより高い「くしなだ」を一般公開少量データを活用した音声AIの構築・普及に貢献国立研究開発法人産業技術総合研究所（以下「産総研」という）人工知能研究センター深山覚研究チーム長、緒方淳客員研究員は、高性能な音声AI構築に利用可能な2種類の日本語音声基盤モデル「いざなみ」「くしなだ」を公開しました。音声基盤モデルとは、音声データを処理・解析するための汎用的なAIモデルで、音声認識や音声感情認識などに応用が進んでいます。音声基盤モデルの構築には、対象とする言語やそれが使われるシーンを想定

stealthinu 2025/03/10

大規模データセット使った感情認識エンジン。オープンで使えるらしい。

リンク

Beatrice VST の遅延を実測した話

こんにちは。GokRackこと極落にんじんです。某社で主にリアルタイムの音響信号処理の技術開発をやってます。先日、プライベートでAI声質変換 Beatrice v2 を使って十全に遊ぶために、VST版のBeatriceに話者モデルのマージ機能 (Voice Morphing Mode)を(勝手に)実装させて頂きました。この間、Beatrice の公式の作者(prj_beatrice)さんが処理遅延の話をしている記事を見かけました。私これでも一応リアルタイム音響信号処理で10年以上禄を食んできた身。こういう話を見ると実測でどうなっているのかを自分でも確認してみたくなります。というわけでこの記事は、手持ちの機材で Beatrice v2 VST版の遅延時間の測定をやってみたよ、そしたら(私の環境では)ほぼ公称値通りの0.05秒で動いていたよ、という話となります。遅延の測定対象につい

stealthinu 2025/03/07

Beatriceすごいな。ほんとに遅延が少ない。

リンク

Crossing the uncanny valley of conversational voice

How do we know when someone truly understands us? It is rarely just our words—it is in the subtleties of voice: the rising excit ement, the thoughtful pause, the warm reassurance. Voice is our most intimate medium as humans, carrying layers of meaning through countless variations in tone, pitch, rhythm, and emotion. Today’s digital voice assistants lack essential qualities to make them truly useful

stealthinu 2025/03/01

これはすごそう。Moshiよりもさらに自然。Moshiは全二重という部分が大きな違いだったけどSesameは感情理解とかを深めたってとこの違い？

リンク

現実世界にさようなら。「VRChat」を今さら始めたら，あっという間に美少女に堕ち，100万円近く飛んでいった

現実世界にさようなら。「VRChat」を今さら始めたら，あっという間に美少女に堕ち，100万円近く飛んでいった編集部：御月亜希 2024年9月末。本当に，本当に今さらなのですが，「VRChat」を始めました。それから5か月ほどが経った今，私の生活は完全にこのVR SNSに乗っ取られてしまい，ログインしない日はありません。☆5キャラを引くためのガチャも，札束でビンタする対人要素もないのに，もう100万円近くのお金が飛んでいきました。いったいどこで，なぜ足を踏み外してしまったのでしょうか……。いえ，心当たりはいっぱいあるんですけど，とにかく危険な世界なんですよ，VRChatは。多くのプレイヤーは平和に楽しく過ごしているのだと思うのですが，恐ろしいことに，私のようにあっという間に壊れてしまう人もいます。何があったのかを，ここに残しておきましょう。お砂糖の話とかではないですよ。本稿のスクリー

stealthinu 2025/03/01

自分たちはこのVR内での音声問題が最初から解決出来てるメタバース作りたかったんだよね。残念だ。Paravoとか遅延少ないと思うけどもそれでもだめなのか。

リンク

J-Moshi

日本語Full-duplex音声対話システムの試作 Paper (To appear) | Model | Code 大橋厚元，飯塚慎也，姜菁菁，東中竜一郎名古屋大学大学院情報学研究科概要: 人間同士の対話における発話のオーバーラップや相槌など，同時双方向的な特徴をモデル化できるfull-duplex音声対話システムは，近年注目を集めている．しかし日本語においては，full-duplex音声対話システムはほとんど見られず，full-duplex音声対話システムの開発に関する知見は不足している．本研究では，英語における主要なfull-duplex音声対話システムであるMoshi[1] をベースとすることで，日本語で利用可能な最初のfull-duplex音声対話システム J-Moshi[2] を試作し，公開する．

stealthinu 2025/01/25

この自然さは全二重にしてあることがキモなんだと思う。

リンク

AivisSpeech Engine の音声合成APIを使ってみる - Qiita

はじめに 2024/11/19 に、AivisSpeech という新しい音声合成ソフトウェアがリリースされました。 🎉本日リリース🎉 【完全無料！AI 音声合成の新時代がここに】かんたんに感情豊かな声をつくれる、最先端の音声合成ソフト「AivisSpeech」が登場！ 💠 無料で圧倒的に高品質な音声合成！ 💠 お手元のPCで快適に動作！ 💠 自作した音声合成モデルも使える！今すぐ試す 👉 https://t.co/q0jONJUc2J pic.twitter.com/f8nLiP3Xwj — Aivis Project (@aivis_project) November 19, 2024 https://aivis-project.com/ AivisSpeech はOSSの音声合成ソフトウェアである VOICEVOX をベースに開発されており、上記のポストにあるような自作

stealthinu 2024/12/11

Aivis Speechをdockerで使う方法

リンク

Aivis Project | AivisSpeech でかんたんに感情豊かな音声合成、使ってみませんか？

声に革命を。Aivis Project が切り拓く、感動の音声体験。 Aivis Project は、感情豊かな音声合成技術を誰もがかんたんに活用できる未来を目指す、壮大な開発プロジェクトです。機械的な響きに留まらない、まるで魂を宿したかのような音声が、あなたの想いや言葉に豊かな感情をのせて世界へと響き渡る。Aivis Project が描く未来は、これまでにない感動と驚きに満ちています。好きなキャラクターの声で物語を紡ぎ、理想の声でニュース記事に命を吹き込む。そうした新しい表現が、私たちのプロダクトを通じて数クリックで実現します。 AivisSpeech でのローカル音声合成から、モデルの制作・ミックス・公開まで、Aivis Project は誰もが自由に好きな声を共有できる未来を形にしていきます。これまで一部の才能や特別な環境だけが手にできていた魅力的な声を、各々のアイデ

stealthinu 2024/11/20

AivisってBert-VITS2のデータセットいじるためのツールとは関係ないのかな？あとVOICEVOX互換UIと書いてあるけどVOICEVOXじゃないいいところがわからん。／やっぱAivis書いてたTorishimaさんが開発してるやつだった。

リンク

にじボイス（旧DMMボイス）はエロゲーを学習している

注意：AI批判目的ではありません。単なる考察結果の共有です。どちらかというと私は思想的にはAI推進過激派です。また、ここでの推測はすべて外れている可能性はあります、あくまで推測です。追記（24/11/20）DMMボイスという名前から「にじボイス」という名称に変更された。主な変更点は以下。キャラクターが15人増えるなぜか久世凛さんとイルミルの声優が変更されるツッコミがあった利用規約の修正それ以外は本記事の内容はすべて当てはまるので、以下「DMMボイス」となっている箇所は適宜「にじボイス」へ読み替えて呼んでほしい。 DMMボイス（現にじボイス）最近AI界隈（？）で話題になっている、20人分のアニメ調キャラクターの声で感情的な音声を簡単に生成することができるAIサービス。 https://nijivoice.com/ それの学習元に、エロゲーのテキスト音声データが使われているのではないかと

stealthinu 2024/11/04

すばらしい考察だ。状況から推測して正しそうだがDMMから提供してもらったデータ使ったよという返しはありそう。

リンク

fierce-cats/beatrice-trainer · Hugging Face

stealthinu 2024/10/22

Beatrice v2のTrainerコード。Beatrice v2でどのようなネットワークになってるかとかピッチ抽出の仕方とか読めるのですごく勉強になる。

リンク

時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。｜にょす

みなさん、こんにちは！9月は久しぶりに個人開発をしてました。今回はGeminiを使って、ちょっと変わった文字起こしアプリを開発したので、その裏側をお話ししていきたいと思います。その名も「無限もじおこし」です！「無限もじおこし」はその名の通り、時間無制限、無料で使える文字起こしアプリです。普通に考えたら「え？大丈夫なの？」って感じですよね笑でも、ちゃんと収益的に成り立つ算段を立てています。この記事ではそこらへんの考えや、アプリ開発における技術的な学びについてまとめていきたいと思います！「無限もじおこし」の紹介主な特徴音声の文字起こしが無制限に可能（10時間でも100時間でも！）使いやすさにこだわった機能（コピー、シェア、自動タイトル生成など）「よく使う単語帳」に登録すると、文字起こしの変換精度アップバックアップ機能があるので、機種変更などが発生しても簡単に引き継げますそして、無

stealthinu 2024/10/05

gemini 1.5 flashだとwhisperよりも1/30とかのコストで文字起こしができると。精度高める方法についていくつかtipsがまとめられてて参考になる。

リンク

OpenAI の Realtime API の使い方｜npaka

以下の記事が面白かったので、簡単にまとめました。・Realtime API 1. Realtime API「Realtime API」は、低遅延なマルチモーダル会話エクスペリエンスを構築するためのAPIです。現在、入出力の両方でテキスト・音声がサポートされており、Function Calling を利用することもできます。特徴は次のとおりです。・ネイティブな音声合成低遅延でニュアンスに富んだ出力が得られる・自然で操作可能な音声自然な抑揚を持ち、笑ったり、ささやいたり、トーンの指示に従うことができる・同時マルチモーダル出力テキストはモデレーションに役立ち、オーディオにより安定した再生が保証される 2. クイックスタート「Realtime API」は、「WebSocket」を介して通信するステートフルなイベントベースAPIです。機能を紹介するデモアプリ「openai-real