並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 63件

新着順 人気順

speechの検索結果1 - 40 件 / 63件

speechに関するエントリは63件あります。 AI機械学習音声 などが関連タグです。 人気エントリには 『令和5年度東京大学学部入学式 祝辞(グローバルファンド 保健システム及びパンデミック対策部長 馬渕 俊介 様) | 東京大学』などがあります。
  • 令和5年度東京大学学部入学式 祝辞(グローバルファンド 保健システム及びパンデミック対策部長 馬渕 俊介 様) | 東京大学

    新入生の皆さん、そしてご家族、ご親族の皆さま、おめでとうございます。 私自身も東大の卒業生ですので、入学時の受験戦争からの解放感、新しい学生生活を始めるわくわく感は、今もよく覚えています。 長い受験勉強が終わって、ついに自由。たくさん遊んで、恋人作って、ガンガンやっていいと思います。 同時に、大学の4年間は、「自分で創り、自分で切り拓く、自分の人生」のスタート地点です。そしてこれからの皆さんの人生の中で、一番自由に、自分の器を広げ、自分の夢を探して突き進める時期でもあります。 私は東大卒業後、発展途上国を日本の立場から支援する国際協力機構JICA、民間の経営コンサルティング会社のマッキンゼーの日本オフィスと南アフリカオフィス、世界銀行、それからビル・ゲイツがマイクロソフトを辞めて、途上国の保健医療の問題を解決するために作ったゲイツ財団で、世界の貧困や感染症に立ち向かう仕事をやってきました。

      令和5年度東京大学学部入学式 祝辞(グローバルファンド 保健システム及びパンデミック対策部長 馬渕 俊介 様) | 東京大学
    • 村井純教授の1月16日最終講義全文書き起こし

      Ruby on Rails, Web Services, Software Development, Startups 概要 「日本のインターネットの父」と呼ばれる慶応大環境情報学部教授の村井純さん(64)が定年を迎え、16日、最終講義があった。村井さんは「インターネットに国境はない。国や政府が分断したり規制しようとしたりする試みは続くだろうが、若い人たちで守ってほしい」と呼びかけた。 https://www.asahi.com/ 村井先生の最終講義。16年ぶりに村井先生の講義を聞いて懐かしくなりました。せっかく良いことをたくさんおっしゃっていたので人力で書き起こしをしました。(Amazonウィッシュリスト) 講義全文 共同授業担当 佐藤特任准教授(以下教員): そろそろ始めましょうか。 村井: はい。それでは皆さん、こんにちは。インターネットの、2019年秋学期の最終回ということで集まっ

        村井純教授の1月16日最終講義全文書き起こし
      • 小池百合子が「えー」を巧みに操っている - nomolkのブログ

        都知事選ではけっきょく小池百合子氏が圧勝した。 この結果が良かったか悪かったかという話はここではしない。とにかくテレビでニュースを見ていると投票終了の8時の時点でもう当選確実、続投が決まった小池百合子氏へのインタビューが流れていた。夕食を食べながらそれをなんとなく聴いていて、あることに気づいた。 小池百合子見てると「休業要請を、おー、行うかは、あー」みたいな感じで普通の人が「えー」を入れるところを前の音節の母音に合わせて変えてるんだけど、これ同時通訳の人とかにも見られる特徴的なしゃべり方で、キャスター時代に覚えた喋りのプロの技法なのかなと思う— メルセデスベン子 (@nomolk) 2020年7月5日 先に言っておくと、小池百合子氏が言葉によく詰まるとか、「えー」で話を引き延ばしがちだとかいうことは言っていない。(そういうreplyが多数来たが) 上記ツイート中の例文は140字の中で説明す

          小池百合子が「えー」を巧みに操っている - nomolkのブログ
        • 商用でも利用可能なAI音声合成ソフトウェア『VOICEVOX』がオープンソースとして無料でリリース|DTMステーション

          本日8月1日、音声合成技術の世界に、また画期的な動きがありました。「Seiren Voice」や「Yukarinライブラリ」の開発者としても知られるヒロシバ(@hiho_karuta)さんが、ITAコーパスを利用した商用利用も可能なAI音声合成システム、VOICEVOXなるソフトウェアをオープンソースのとして無料でリリースしたのです。具体的には現時点Windowsで動くシステムで、「ずんだもん」および「四国めたん」の声でテキストを読み上げるシステムとなっています。 これがオープンソースとなったことで、一般ユーザーが自由に利用できるというだけでなく、さまざまなシステムに組み込んで喋らせることが可能になったのが画期的なところ。たとえばロボットなどに組み込んで対話型のシステムを作ることや、観光案内システムに導入して喋らせる……といったこともできるほか、クラウド型のシステムを構築し、ブラウザを経由

            商用でも利用可能なAI音声合成ソフトウェア『VOICEVOX』がオープンソースとして無料でリリース|DTMステーション
          • Windows 10は好きな文章を合成音声で簡単に喋らせることができる (1/2)

            こんな簡単なコマンドで、Windowsは「しゃべって」くれる。画面キャプチャーでは声をお聞かせすることはできないが、お手元のWindows PowerShellで試してほしい スクリプトを作るとき、ちょっとユーザーの気を引きたくなることがある。たとえば、少し時間のかかる処理をするときに、終わったことを通知したい場合などだ。あるいは、実行後にすこし時間が経過してからエラーを通知するような場合にも、気を引きたくなることがある。 こんなとき昔のコンピューターならベル音やビープ音を鳴らすのが一般的だった。端末装置からコンピューターを使っていた頃、Ctrl+Gを出力するとベル音が鳴った。マイクロプロセッサが使われ始め、パソコンの原型ができあがった頃、BEEPと呼ばれる機能ができた。プログラムでビットをオンオフし、これをスピーカーに接続することで音を出していた。今もマザーボード上には、そのための小さな

              Windows 10は好きな文章を合成音声で簡単に喋らせることができる (1/2)
            • デ・ニーロ、受賞スピーチを検閲されたとアップル非難。壇上で気付き「消された部分」を読み上げ喝采受ける | テクノエッジ TechnoEdge

              ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 映画俳優のロバート・デ・ニーロ氏が、2023年度のゴッサム・インディペンデント映画賞の授賞式におけるスピーチに登壇した際、読み上げるスピーチ原稿から当初予定していた記述が削除されていたことに関して、アップルと映画賞主催者を非難しました。 問題のスピーチはゴッサム賞のなかの一部門を受賞した作品を紹介するため、デ・ニーロ氏が用意したものでした。 事前の原稿は冒頭部分で「前大統領は在任中の4年間に3万回以上も嘘をつき、現在の報復キャンペーンでもそのペースを維持しています。しかし、その嘘の数々をもってしても、その本心を隠すことはできません。弱者を叩き、自然の恵みを破壊し、例えば『ポカホンタス』を差別的な言葉として使う

                デ・ニーロ、受賞スピーチを検閲されたとアップル非難。壇上で気付き「消された部分」を読み上げ喝采受ける | テクノエッジ TechnoEdge
              • CoeFont

                CoeFont is a global AI Voice Platform, empowering users to express themselves in any language through a diverse range of AI voices.

                  CoeFont
                • 求人で良さそうなところあったのに、朝礼前に1分間スピーチあるって書いてて応募するの辞めた→経験者の声や肯定派の意見など色々集まる

                  おいも🍠 @oimoga_daisuki 求人で良さそうなところあったのに、朝礼前に1分間スピーチあるって書いてて応募するの辞めた。そんなん業務の1つにして何になるんやろ?小学生かよ。

                    求人で良さそうなところあったのに、朝礼前に1分間スピーチあるって書いてて応募するの辞めた→経験者の声や肯定派の意見など色々集まる
                  • 作家の竹田恒泰氏の講演、妨害予告で中止 富山・朝日町:朝日新聞デジタル

                    富山県朝日町教育委員会は11日、町内で13日に開催予定だった作家の竹田恒泰氏の講演を中止すると発表した。開催を妨害するとの予告連絡があり、会場の安全確保に支障があると判断したという。 予定では、町立朝日中学と県立泊高校の生徒らの活動発表の後に、「日本はなぜ世界でいちばん人気があるのか」とのテーマで竹田氏が講演することになっていた。町によると、先週から竹田氏の講演に対する意見が電話やメールで多い日には数十件届いた。10日には妨害を予告する連絡があった。活動発表は会場を変更して行うという。 ","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 -->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><!-- /news/esi/ichikiji/c6/default.htm -->","naka6Sp":"<!-- B

                      作家の竹田恒泰氏の講演、妨害予告で中止 富山・朝日町:朝日新聞デジタル
                    • writeout.ai

                      Transcribe and translate any audio file. Upload your audio file and get a transcript in seconds. Writeout.ai is a free online transcription service.

                        writeout.ai
                      • 富山・朝日町教委、竹田恒泰氏講演中止 「教育勅語広める」授業に批判 | 毎日新聞

                        富山県朝日町教委は11日、作家の竹田恒泰氏を招いて13日に予定していた講演会を中止すると発表した。町立朝日中学と県立泊高校の授業の一環だったが、竹田氏の講演会への批判的な意見が保護者や町民から相次いだ上、開催を妨害する趣旨の電話があり、「会場の安全確保に支障が出る恐れがある」と説明している。 町教委によると、「日本はなぜ世界でいちばん人気があるのか」との演題…

                          富山・朝日町教委、竹田恒泰氏講演中止 「教育勅語広める」授業に批判 | 毎日新聞
                        • OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO

                          こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。 個人的には、いくら認識が凄いって言っても、実際日本語は微妙なんじゃないかな…?と思っていたのですが… ですが… … … … おお!?(上記はGitHubにあるWER: Word Error Rateのグラフです) これは!? これは結構良さげな数値を出している!?(たぶん) ってことで元音声屋さんとしては、これは試すしかない!ということで動かしてみました!(投稿は翌日になってしまいましたが…) なお、本記事では論文内容の詳細などには触れませんのでご了承ください。(後日できたらがんばります) いますぐ使いたい人向け 今すぐ使いたい方は、Hugging Faceでブラウザから書き起こしを試

                            OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
                          • 最近のAIボイスチェンジャー(RVC、so-vits-svc)

                            私は趣味で機械学習を学ぶ初学者であり、説明に間違いや勘違いがある可能性があります。そういった点がありましたらコメントで指摘していただけると助かります。 また、so-vits-svcやRVCは論文ベースでの技術発表が無いため、以下はコードや周辺情報からの想像を含みます。 修正履歴 2023/04/15 RVCの動作について誤りがあったので修正しました。nadare🌱さんご指摘ありがとうございます。 AIボイスチェンジャーとは ある発話音声の入力を特定の話者が発話したような声質の発話音声に変換するための、深層学習を使用したアプローチがそう呼ばれている印象です。 以前から、深層学習を用いたリアルタイムボイスチェンジャーはMMVCなどが存在していました。 最近(2022年11月頃から2023年4月頃)では、Retrieval-based-Voice-Conversion 通称RVC や、Soft

                              最近のAIボイスチェンジャー(RVC、so-vits-svc)
                            • OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる

                              OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Robust Speech Recognition via Large-Scale Weak Supervision – GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は

                                OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
                              • 自動化にこだわるのはエンジニアとして正しいあり方。CTOに聞いた生産性をあげるためにやっていること。【ep.9 #論より動くもの .fm】 - STORES Product Blog

                                CTO 藤村がホストするPodcast、論より動くもの.fmの第9回を公開しました。今回はCTO藤村が生産性をあげるためにやっていることについて話しました。 論より動くもの.fmはSpotifyとApple Podcastで配信しています。フォローしていただくと、新エピソード公開時には自動で配信されますので、ぜひフォローしてください。 テキストで読みたい方は下記からどうぞ。 パンを作るだけじゃなく、パンを作る機械も作る 藤村:みなさん、こんにちは、論より動くもの.fmです。論より動くもの.fmは、heyのCTO藤村が技術や技術にまつわるさまざまなことについてざっくばらんにお話しするPodcastです。今回はゲストに技術広報のえんじぇるさんを招いております。よろしくお願いします。 えん:よろしくお願いします。 藤村:今日は生産性について話したいというお題を受けたので、それについて話そうと思い

                                  自動化にこだわるのはエンジニアとして正しいあり方。CTOに聞いた生産性をあげるためにやっていること。【ep.9 #論より動くもの .fm】 - STORES Product Blog
                                • Speech-to-Text Webcam Overlay

                                  *認識結果が確定したタイミングで反映されます。テキストの編集・コピーも可能です。 **認識中にEnterキーを押すと,認識を止めて文を区切ることができます。日本語の場合は文末に句点が付与されます。 よくある質問・ソースコード: GitHub 音声認識は Web Speech API を利用しています。 カメラやマイクが機能しないとき → ページの再読み込みや,ブラウザの設定を確認してください: Chrome ヘルプ 「ログをダウンロード」でダウンロードされるファイルは,アクセスしているユーザーのブラウザで生成されています。

                                    Speech-to-Text Webcam Overlay
                                  • ReazonSpeech - Reazon Human Interaction Lab

                                    ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。 日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。 音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。

                                    • 自動文字起こしサービス | Notta

                                      It seems the website language does not match your browser settings. We recommend visiting our English site that allows you to check content, services, and prices in a preferred language.

                                        自動文字起こしサービス | Notta
                                      • Aphex Twin | ele-king

                                        最近父を亡くしたというエイフェックス・ツインことリチャード・D・ジェイムスが、どうやら昨今の状況に危機感を覚えたようで、めずらしく警告を発している。RA の報じるところによれば、当初 SoundCloud の user18081971 のプロフィール欄にメッセージがポストされ、一度削除された後、現在は Reddit に再掲載されている。とても良いことを言っているので、以下に試訳を掲げておきます。 現在悲しみに暮れている方々には心からお悔やみ申し上げます。ぼくは最近父を亡くしました。本当につらかったけど、COVID-19 とは無関係でした。 もし COVID-19 の統計を目にすることがあったら、その数値が COVID-19 “が原因で” 亡くなった人たちを反映しているのかどうか、ちゃんと確認しなきゃいけないよ。どうか忘れないでほしい。 もし警察が、きちんとした法もないような状態で政府の要望

                                          Aphex Twin | ele-king
                                        • ElevenLabs: Free Text to Speech & AI Voice Generator | ElevenLabs

                                          Create the most realistic speech with our AI audio platformPioneering research in Text to Speech, AI Voice Generator, and more

                                            ElevenLabs: Free Text to Speech & AI Voice Generator | ElevenLabs
                                          • 開会式で話題となった"長いスピーチ"、どうしてそう感じたのかをスピーチライターがガチ分析してみた

                                            千葉 佳織 / kaeka スピーチライター @kaolly13 オリンピック開会式のバッハ会長のスピーチ、「長かった」との感想を多く目にしました。 みなさんの違和感の正体が、スピーチのどのような技術に由来するのか、スピーチライターの視点で分析してみました。 明日から使えるスピーチ・プレゼンのポイントも添えています。 pic.twitter.com/eTV12Q3fRh

                                              開会式で話題となった"長いスピーチ"、どうしてそう感じたのかをスピーチライターがガチ分析してみた
                                            • GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
                                              • AI文字起こし | Rimo Voice

                                                AIで音声・動画を 文字起こし1時間の音声データを約5分で文字起こし。打ち合わせやオンラインイベントなど様々な場面で、手軽にご活用いただけます。

                                                  AI文字起こし | Rimo Voice
                                                • Lyra: A New Very Low-Bitrate Codec for Speech Compression

                                                  Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more

                                                    Lyra: A New Very Low-Bitrate Codec for Speech Compression
                                                  • GitHub - isletennos/MMVC_Trainer: AIを使ったリアルタイムボイスチェンジャー(Trainer)

                                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                      GitHub - isletennos/MMVC_Trainer: AIを使ったリアルタイムボイスチェンジャー(Trainer)
                                                    • GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++

                                                      Stable: v1.6.2 / Roadmap | F.A.Q. High-performance inference of OpenAI's Whisper automatic speech recognition (ASR) model: Plain C/C++ implementation without dependencies Apple Silicon first-class citizen - optimized via ARM NEON, Accelerate framework, Metal and Core ML AVX intrinsics support for x86 architectures VSX intrinsics support for POWER architectures Mixed F16 / F32 precision 4-bit and 5

                                                        GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++
                                                      • https://www.waseda.jp/top/assets/uploads/2022/04/2204_speech_koreeda.pdf

                                                        • End-to-End音声認識の計算量を削減した話

                                                          ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、音声処理黒帯(黒帯はヤフー内のスキル任命制度)の藤田です。今日のブログでは、音声認識技術の研究開発におけるヤフーの最新の取り組みを紹介します。 特に、近年注目されているTransformerという手法に基づく、End-to-End音声認識の計算量を削減した研究を紹介します。この研究は、難関国際会議IEEE ICASSP2020に投稿し、採択されました。また、arXivでプレプリントを公開しています。そして、ESPnetというEnd-to-Endモデルのツールキット上でソースコードも公開しています。興味のある方はぜひ、こちらもご参照ください。 音声認識で用いられるEnd-to-Endモデルとは? 音声認識技術は音声をテキ

                                                            End-to-End音声認識の計算量を削減した話
                                                          • 音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita

                                                            本記事は MIXI DEVELOPERS Advent Calendar 2022 の4日目の記事です。 TL;DR Romi チームでは自然言語処理をメインでやりつつ、最近は音声系も手を出しつつあるよ 2022年末現在の音声認識最強モデル Whisper を高速化 重みの fp16 化 TorchScript 化 認識の長さを30秒ごとから10秒ごとに 結果処理速度が約2倍に ソースコード: https://github.com/projectlucas/efficient_whisper 実験結果: https://github.com/projectlucas/efficient_whisper/blob/main/notebooks/efficient_whisper.ipynb はじめに こんにちは株式会社 MIXI Romi 事業部 Engineering Manager の

                                                              音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita
                                                            • Seamless Translation | Meta FAIR

                                                              Create translations that follow your speech style. Translate from nearly 100 input languages into 35 output languages. This is a translation research demo powered by AI.

                                                                Seamless Translation | Meta FAIR
                                                              • Whisper Web - a Hugging Face Space by Xenova

                                                                Discover amazing ML apps made by the community

                                                                  Whisper Web - a Hugging Face Space by Xenova
                                                                • 🗣️ Talk face-to-face with AI

                                                                  Experience real-time conversations with Chat.D-ID

                                                                    🗣️ Talk face-to-face with AI
                                                                  • 令和5年度東京大学学部入学式 祝辞(グローバルファンド 保健システム及びパンデミック対策部長 馬渕 俊介 様) | 東京大学

                                                                    新入生の皆さん、そしてご家族、ご親族の皆さま、おめでとうございます。 私自身も東大の卒業生ですので、入学時の受験戦争からの解放感、新しい学生生活を始めるわくわく感は、今もよく覚えています。 長い受験勉強が終わって、ついに自由。たくさん遊んで、恋人作って、ガンガンやっていいと思います。 同時に、大学の4年間は、「自分で創り、自分で切り拓く、自分の人生」のスタート地点です。そしてこれからの皆さんの人生の中で、一番自由に、自分の器を広げ、自分の夢を探して突き進める時期でもあります。 私は東大卒業後、発展途上国を日本の立場から支援する国際協力機構JICA、民間の経営コンサルティング会社のマッキンゼーの日本オフィスと南アフリカオフィス、世界銀行、それからビル・ゲイツがマイクロソフトを辞めて、途上国の保健医療の問題を解決するために作ったゲイツ財団で、世界の貧困や感染症に立ち向かう仕事をやってきました。

                                                                      令和5年度東京大学学部入学式 祝辞(グローバルファンド 保健システム及びパンデミック対策部長 馬渕 俊介 様) | 東京大学
                                                                    • Introducing speech-to-text, text-to-speech, and more for 1,100+ languages

                                                                      Introducing speech-to-text, text-to-speech, and more for 1,100+ languages Equipping machines with the ability to recognize and produce speech can make information accessible to many more people, including those who rely entirely on voice to access information. However, producing good-quality machine learning models for these tasks requires large amounts of labeled data — in this case, many thousan

                                                                        Introducing speech-to-text, text-to-speech, and more for 1,100+ languages
                                                                      • GitHub - facebookresearch/demucs: Code for the paper Hybrid Spectrogram and Waveform Source Separation

                                                                        Important: As I am no longer working at Meta, this repository is not maintained anymore. I've created a fork at github.com/adefossez/demucs. Note that this project is not actively maintained anymore and only important bug fixes will be processed on the new repo. Please do not open issues for feature request or if Demucs doesn't work perfectly for your use case :) This is the 4th release of Demucs

                                                                          GitHub - facebookresearch/demucs: Code for the paper Hybrid Spectrogram and Waveform Source Separation
                                                                        • 東工大の卒業式で祝辞、述べてみた|ina111 / 稲川貴大

                                                                          母校の東京工業大学の卒業式(正式には学位授与式、学部および大学院の2回)で来賓として祝辞を読む機会を頂いた。2024年3月26日。 東工大は24年10月には東京医科歯科大学と合併して東京科学大学となるので、「東京工業大学」としては最後の春の卒業式だった。 そんな大事な機会に、もっと王道的に凄い卒業生がアボガドロ定数ほどいる中で、私を推薦してくれた益学長には感謝です。 聞いてる卒業生・親御さんたちに、眠くならない時間を提供出来たので良かった。加えて、なにか新しいことやろうという気持ちの人が一人でも出てきたら嬉しい。 祝辞国内屈指の大学の卒業式に同席できて光栄です。 最初に、自己紹介します。 私は10年ちょっと前に機械系で学部、修士と東工大を出ました。 今は宇宙開発、民間でのロケット開発を行うベンチャー、スタートアップ企業の社長をしています。 創業時の11年前は数人で始めた会社は、今では170

                                                                            東工大の卒業式で祝辞、述べてみた|ina111 / 稲川貴大
                                                                          • 【図解】超高性能AIボイスチェンジャー「RVC」のしくみ・コツ

                                                                            はじめに ↑に貼った動画は話題の高性能ボイスチェンジャー「RVC」の変換例です(Creative Commonsで配布・改変が可能なライセンスの音声データを学習させたものです。BOOTHで無料配布中です)。今回の記事では動画の4つ+1の計5モデルを作成する中で見えてきたRVCの仕組みや使用時・モデル生成時のコツを紹介したいと思います。 BOOTHで学習済みモデル無料配布中(ライセンスはそれぞれ異なり、元データに準拠します) 注意事項 本編に入る前にいくつか前提を明らかにしておきます。私自身、RVCや音声認識についての専門知識はほぼありません。RVCについて初めて知ったのは約2週間前で、そのレベルは初心者の域を出ないと思っていただければと思います。さらに、RVCのモデルであるHuBERTやトランスフォーマーに関する知識もあまりありません(論文もまともに読んでません)。 したがって、この記事の

                                                                              【図解】超高性能AIボイスチェンジャー「RVC」のしくみ・コツ
                                                                            • tl;dv.io | AI Meeting Note taker for Zoom, Google Meet & MS Teams

                                                                              Close Product & Integrations Open Product & Integrations Use Cases

                                                                                tl;dv.io | AI Meeting Note taker for Zoom, Google Meet & MS Teams
                                                                              • DDSP-SVCでリアルタイム音声合成をするのだ。

                                                                                こんなツイートをしますた。 ということでDDSPを推していきます(?) DDSP-SVCとは 👆これです。 Real-time end-to-end singing voice conversion system based on DDSP (Differentiable Digital Signal Processing). らしいです。 RVC並みの学習速度でかつ品質はRVCより上(多分)っていうやつです。 さらにリアルタイム音声変換ではRVCよりもレイテンシが低いらしい。 拡散モデルと組み合わせればさらに質がよくなるようです。 なんか面白そうですよね。 ということで触っていきましょう。 インストール

                                                                                  DDSP-SVCでリアルタイム音声合成をするのだ。
                                                                                • LLM音声対話システムの応答を高速化してみた | CyberAgent Developers Blog

                                                                                  はじめまして、CyberAgent AI Lab Intaractive Agentチームの技術研究員の大平といいます。 この記事は CyberAgent Developers Advent Calendar 2023 1日目の記事です。 ChatGPTの登場以降、自然なチャット対話はAPI呼び出しだけで簡単に実装できるようになりました。 更に人間のようなインタラクションを実現しようとすれば、音声対話に発展させたいと思う方も多いかと思われます。 しかし実際にLLMを使って音声対話システムを構築してみると、そのレスポンスの遅さに不満を感じることになります。 この記事ではよくあるシンプルなLLMを用いた音声対話に対していくつかの工夫を施し、その応答速度をできるだけ早めてみようという試みになります。 よくある構成として、以下を用います。 音声認識 Google STT LLM ChatGPT 3

                                                                                    LLM音声対話システムの応答を高速化してみた | CyberAgent Developers Blog

                                                                                  新着記事