The platform for real-time, multimodal intelligence. Generate seamless speech, power voice applications, and fine-tune your own voice models on the fastest real-time AI platform.

【老若男女誰でも現実の20代女性に声変わりしてLINEやVRCで通話できるようになる無料AIボイチェンアプリです】 使用の際はハッキリ活舌よく話してください(ゆかりねっとを高速化した仕組みに近いです) RTX2070以下の場合、steamVRの解像度を0.6くらいに下げ、アバターを表示する数を設定で減らしてください ◈ 商品説明 ◈ マイクに向かってハッキリ活舌よく話すと綺麗に音声認識されて、うまく女子に声変わりできやすいです(高速化したゆかりねっとの様な仕組みです)boothにログインするのが面倒で 本体を直リンクから今すぐダウンロードしたい方へ↓ 改善版v34 https://huggingface.co/ki8dyh45/VC-app-style-bert-vits2-10models-Riabo/resolve/main/RiaboVC-v34.7z?download=true 7
発表・掲載日:2025/03/10 日本語音声基盤モデル「いざなみ」「くしなだ」を公開 -少量の日本語音声データで高性能な音声AIを構築可能に- ポイント 豊かな感情表現を含む6万時間の日本語音声データから2種類の日本語音声基盤モデルを構築 モデルの改良が容易な「いざなみ」と感情認識や音声認識の能力がより高い「くしなだ」を一般公開 少量データを活用した音声AIの構築・普及に貢献 国立研究開発法人 産業技術総合研究所(以下「産総研」という)人工知能研究センター 深山覚 研究チーム長、緒方淳 客員研究員は、高性能な音声AI構築に利用可能な2種類の日本語音声基盤モデル「いざなみ」「くしなだ」を公開しました。 音声基盤モデルとは、音声データを処理・解析するための汎用的なAIモデルで、音声認識や音声感情認識などに応用が進んでいます。音声基盤モデルの構築には、対象とする言語やそれが使われるシーンを想定
こんにちは。GokRackこと極落にんじんです。 某社で主にリアルタイムの音響信号処理の技術開発をやってます。 先日、プライベートでAI声質変換 Beatrice v2 を使って十全に遊ぶために、VST版のBeatriceに話者モデルのマージ機能 (Voice Morphing Mode)を(勝手に)実装させて頂きました。 この間、Beatrice の公式の作者(prj_beatrice)さんが処理遅延の話をしている記事を見かけました。 私これでも一応リアルタイム音響信号処理で10年以上禄を食んできた身。こういう話を見ると実測でどうなっているのかを自分でも確認してみたくなります。 というわけでこの記事は、手持ちの機材で Beatrice v2 VST版の遅延時間の測定をやってみたよ、そしたら(私の環境では)ほぼ公称値通りの0.05秒で動いていたよ、という話となります。 遅延の測定対象につい
How do we know when someone truly understands us? It is rarely just our words—it is in the subtleties of voice: the rising excitement, the thoughtful pause, the warm reassurance. Voice is our most intimate medium as humans, carrying layers of meaning through countless variations in tone, pitch, rhythm, and emotion. Today’s digital voice assistants lack essential qualities to make them truly useful
現実世界にさようなら。「VRChat」を今さら始めたら,あっという間に美少女に堕ち,100万円近く飛んでいった 編集部:御月亜希 2024年9月末。本当に,本当に今さらなのですが,「VRChat」を始めました。それから5か月ほどが経った今,私の生活は完全にこのVR SNSに乗っ取られてしまい,ログインしない日はありません。☆5キャラを引くためのガチャも,札束でビンタする対人要素もないのに,もう100万円近くのお金が飛んでいきました。いったいどこで,なぜ足を踏み外してしまったのでしょうか……。 いえ,心当たりはいっぱいあるんですけど,とにかく危険な世界なんですよ,VRChatは。多くのプレイヤーは平和に楽しく過ごしているのだと思うのですが,恐ろしいことに,私のようにあっという間に壊れてしまう人もいます。何があったのかを,ここに残しておきましょう。お砂糖の話とかではないですよ。 本稿のスクリー
日本語Full-duplex音声対話システムの試作 Paper (To appear) | Model | Code 大橋 厚元,飯塚 慎也,姜 菁菁,東中 竜一郎 名古屋大学 大学院情報学研究科 概要: 人間同士の対話における発話のオーバーラップや相槌など,同時双方向的な特徴をモデル化できるfull-duplex音声対話システムは,近年注目を集めている.しかし日本語においては,full-duplex音声対話システムはほとんど見られず,full-duplex音声対話システムの開発に関する知見は不足している.本研究では,英語における主要なfull-duplex音声対話システムであるMoshi[1] をベースとすることで,日本語で利用可能な最初のfull-duplex音声対話システム J-Moshi[2] を試作し,公開する.
はじめに 2024/11/19 に、AivisSpeech という新しい音声合成ソフトウェアがリリースされました。 🎉本日リリース🎉 【完全無料!AI音声合成の新時代がここに】 かんたんに感情豊かな声をつくれる、最先端の音声合成ソフト「AivisSpeech」が登場! 💠 無料で圧倒的に高品質な音声合成! 💠 お手元のPCで快適に動作! 💠 自作した音声合成モデルも使える! 今すぐ試す 👉 https://t.co/q0jONJUc2J pic.twitter.com/f8nLiP3Xwj — Aivis Project (@aivis_project) November 19, 2024 https://aivis-project.com/ AivisSpeech はOSSの音声合成ソフトウェアである VOICEVOX をベースに開発されており、 上記のポストにあるような自作
声に革命を。Aivis Project が切り拓く、感動の音声体験。 Aivis Project は、感情豊かな音声合成技術を誰もがかんたんに活用できる未来を目指す、 壮大な開発プロジェクトです。 機械的な響きに留まらない、まるで魂を宿したかのような音声が、あなたの想いや言葉に豊かな感情をのせて 世界へと響き渡る。Aivis Project が描く未来は、これまでにない感動と驚きに満ちています。 好きなキャラクターの声で物語を紡ぎ、理想の声でニュース記事に命を吹き込む。 そうした新しい表現が、私たちのプロダクトを通じて数クリックで実現します。 AivisSpeech でのローカル音声合成から、モデルの制作・ミックス・公開まで、Aivis Project は 誰もが自由に好きな声を共有できる未来を形にしていきます。 これまで一部の才能や特別な環境だけが手にできていた魅力的な声を、各々のアイデ
注意:AI批判目的ではありません。単なる考察結果の共有です。どちらかというと私は思想的にはAI推進過激派です。また、ここでの推測はすべて外れている可能性はあります、あくまで推測です。 追記(24/11/20)DMMボイスという名前から「にじボイス」という名称に変更された。主な変更点は以下。 キャラクターが15人増える なぜか久世凛さんとイルミルの声優が変更されるツッコミがあった利用規約の修正それ以外は本記事の内容はすべて当てはまるので、以下「DMMボイス」となっている箇所は適宜「にじボイス」へ読み替えて呼んでほしい。 DMMボイス(現にじボイス)最近AI界隈(?)で話題になっている、20人分のアニメ調キャラクターの声で感情的な音声を簡単に生成することができるAIサービス。 https://nijivoice.com/ それの学習元に、エロゲーのテキスト音声データが使われているのではないかと
みなさん、こんにちは!9月は久しぶりに個人開発をしてました。 今回はGeminiを使って、ちょっと変わった文字起こしアプリを開発したので、その裏側をお話ししていきたいと思います。その名も「無限もじおこし」です! 「無限もじおこし」はその名の通り、時間無制限、無料で使える文字起こしアプリです。普通に考えたら「え?大丈夫なの?」って感じですよね笑 でも、ちゃんと収益的に成り立つ算段を立てています。この記事ではそこらへんの考えや、アプリ開発における技術的な学びについてまとめていきたいと思います! 「無限もじおこし」の紹介主な特徴音声の文字起こしが無制限に可能 (10時間でも100時間でも!)使いやすさにこだわった機能 (コピー、シェア、自動タイトル生成など)「よく使う単語帳」に登録すると、文字起こしの変換精度アップバックアップ機能があるので、機種変更などが発生しても簡単に引き継げます そして、無
以下の記事が面白かったので、簡単にまとめました。 ・Realtime API 1. Realtime API「Realtime API」は、低遅延なマルチモーダル会話エクスペリエンスを構築するためのAPIです。現在、入出力の両方でテキスト・音声がサポートされており、Function Calling を利用することもできます。 特徴は次のとおりです。 ・ネイティブな音声合成 低遅延でニュアンスに富んだ出力が得られる ・自然で操作可能な音声 自然な抑揚を持ち、笑ったり、ささやいたり、トーンの指示に従うことができる ・同時マルチモーダル出力 テキストはモデレーションに役立ち、オーディオにより安定した再生が保証される 2. クイックスタート「Realtime API」は、「WebSocket」を介して通信するステートフルなイベントベースAPIです。 機能を紹介するデモアプリ「openai-real
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く