並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 195 件 / 195件

新着順 人気順

音声認識の検索結果161 - 195 件 / 195件

  • A new AI-powered speech translation system for Hokkien pioneers a new approach for a primarily oral language

    Meta’s new AI-powered speech translation system for Hokkien pioneers a new approach for an unwritten language Until now, AI translation has mainly focused on written languages. Yet nearly half of the world’s 7,000+ living languages are primarily oral and do not have a standard or widely used writing system. This makes it impossible to build machine translation tools using standard techniques, whic

      A new AI-powered speech translation system for Hokkien pioneers a new approach for a primarily oral language
    • 声でカーナビを操作! ディープラーニングによる音声認識技術の応用事例 #ディープラーニング

      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部で音声認識の技術開発を担当している木田です。 この年末年始、帰省や旅行でお出かけの際にカーナビを利用される方が多いのではないでしょうか? ヤフーではYahoo!カーナビというサービスを提供していますが、2018年12月に音声によるハンズフリー操作機能が導入されました(2019年12月現在はAndroid版のみ対応)。 今回はその技術の裏側をご紹介します! 写真:アフロ 使い方とシステム構成 それでは、この機能の使い方を説明します。 まずはYahoo!カーナビを起動し、こちらのページに記載している設定を行うことで、ハンズフリー操作が有効になります。 設定ができたら、「ねぇヤフー」と呼びかけてみてください

        声でカーナビを操作! ディープラーニングによる音声認識技術の応用事例 #ディープラーニング
      • 音声通話やビデオ通話と併用し、音声認識で会話ログが取れるサービスを作ってみました - Skyway Walkers

        現在、音声通話やビデオ通話が可能なサービスは多数存在するのですが、会話の内容を音声認識で字幕表示したり、テキストとして残せるサービスはそれほど多くないように思います。(現状だと英語のみ対応というケースが多い気がします) そのため、音声通話やビデオ通話と併用して利用する事で、日本語での会話内容をテキストで残せるサービスを作ってみました。 ※2020/06/08 追記:サービスの名前変更しました。 skybeje.net 使い方は簡単です。音声通話やビデオ通話をしている状態で 「Talk To CSV」にアクセス(簡易チャットルームが作られます) 上段の「招待URLをコピー」を押し、URLをクリップボードにコピーします。 (招待URLは起動のだびに毎回変わる事に注意してください) 音声通話やビデオ通話の参加者に、そのURLを伝えます。 参加者全員にGoogle Chromeで、そのURLを開い

          音声通話やビデオ通話と併用し、音声認識で会話ログが取れるサービスを作ってみました - Skyway Walkers
        • 聞こえ始めたVoiceTechの鼓動

          2021年初頭、Twitter(ツイッター)の音声版ともいわれる「Clubhouse(クラブハウス)」が日本市場を席巻したのは記憶に新しい。その後、クラブハウスの勢いは急激に失速したものの、多くの人が改めて「音声」が秘める力に気づいた。 テクノロジーはメディアが一方的に情報を発信する環境を一変させた。ツイッターは文字、YouTubeは動画という手段で、個人による情報発信を可能にした。もちろん、音声もまた、比較的古くからポッドキャストなどの情報発信手段はあったものの、利用は一部にとどまっていた。 だが、2019年には音楽ストリーミングサービスを手がけるスウェーデンのSpotify(スポティファイ)がポッドキャスト関連企業の米Gimlet Media(ギムレット・メディア)と米Anchor(アンカー)を買収。今年に入ってからは米ツイッターが、同じくソーシャルポッドキャストサービスを手がける米B

            聞こえ始めたVoiceTechの鼓動
          • TechCrunch | Startup and Technology News

            We received countless submissions to speak at this year’s Disrupt 2024. After carefully sifting through all the applications, we’ve narrowed it down to 19 session finalists. Now we need your…

              TechCrunch | Startup and Technology News
            • ペイントソフト用音声認識アシスタント 『アイリス』

              話しかけるだけ様々なアプリケーションのキー入力を素早く実行します。 好きな言葉を無制限に登録できる プロのためのVUIアプリ マイクがあればすぐに使い始めることが出来ます。

                ペイントソフト用音声認識アシスタント 『アイリス』
              • kanaVo - 声をカルテ化するAIツール

                しまだ内科・循環器クリニック 内科、循環器内科 User's Interview Wevery!チャンネルでkanaVoの動画を拝見して「シュライバーの代わりになるのではないか!」と思い、すぐに連絡しました。だから、kanaVoにはシュライバーの代わりとしてカルテ記載の効率化にとっても期待をしています。 桑名もり内科 内科/腎臓内科/糖尿病内科/漢方内科/小児科 User's Interview 診察中の内容が高精度で要約されるので、メモを取る必要もなく今まで以上に患者さんに集中できています。 クラークの採用も不要で、私の業務は大幅に軽減されました。

                  kanaVo - 声をカルテ化するAIツール
                • 中国、AIが翻訳 多言語字幕をリアルタイムで表示 - 日本経済新聞

                  AIを活用した音声認識分野最大手の「科大訊飛(iFLYTEK)」が、大規模な国際会議やイベントでリアルタイム翻訳や自動議事録作成サービスを提供している。AIを活用して講演者の話し方の癖や方言を補正し、高い精度で話し言葉をテキスト化する。中国での国際的な大規模イベントで欠かせないサービスになりつつある。4月27日、アジア最大級のモバイルインターネットイベント「GMIC 2020(グローバル・モバ

                    中国、AIが翻訳 多言語字幕をリアルタイムで表示 - 日本経済新聞
                  • LINE、無料AI音声認識アプリ「CLOVA Note β」の提供を開始

                    LINEは、「LINE CLOVA」より、無料のAI音声認識アプリ「CLOVA Note(クローバ・ノート)」のβ版の提供を開始しました。 このAIニュースのポイント LINEは、無料のAI音声認識アプリ「CLOVA Note」のβ版の提供を開始 「CLOVA Note」は、音声認識AIによって、録音した声をテキストに変換するAI音声認識アプリ 録音時の話者分離が可能なため、会議の議事録作成にも活用 LINE株式会社は、LINEのAIテクノロジーブランド「LINE CLOVA」より、「会話を目で見る」ことができる無料のAI音声認識アプリ「CLOVA Note」のβ版の提供を5月24日より開始しました。 「CLOVA Note」は、LINE CLOVAのAI技術である「CLOVA Speech(音声認識)」の音声認識AIによって、録音した声をテキストに変換するAI音声認識アプリです。アプリを

                      LINE、無料AI音声認識アプリ「CLOVA Note β」の提供を開始
                    • Artyom.js - Webサイトにボイスコマンドを追加 MOONGIFT

                      ボイスコマンドといえばSiri、Google Home、Alexaなどが有名です。スピーカーやスマートフォンに語りかけるだけでアクションしてくれるのは、一度慣れると手放せません。他にももっと音声だけで操作できれば便利なのにと思ってしまうでしょう。 そこで使ってみたいのがArtyom.jsです。WebサイトでJavaScriptベースの操作ができるようになります。 Artyom.jsの使い方 Artyom.jsのコードです。特定のワードに対して反応し、それに対するアクションを定義できます。 Artyom.jsでは聞く方はもちろん、発話も可能です。つまり音声認識した結果に対して、発話で対応もできます。さらに認識する内容はワイルドカードを使った定義もできるので、ある単語を翻訳したり、どこどこに移動するといった指定も可能です。 Artyom.jsはJavaScript製のオープンソース・ソフトウェ

                        Artyom.js - Webサイトにボイスコマンドを追加 MOONGIFT
                      • Google、音質重視スマスピ「Nest Audio」を1万1550円で発売

                        米Googleは9月30日(現地時間)、オンライン製品発表イベント「Launch Night In」を開催し、新しいスマートスピーカー「Nest Audio」を発表した。日本でも同日から予約を受け付けており、Google Storeでの販売価格は1万1550円(税込)。発売は15日だ。 同社のスマートスピーカーシリーズ内での位置づけは、「Nest Mini」の上、「Nest Max」の下で、初代「Google Home」の後継ということになるが、(芳香剤と呼ばれた)先代とは形状も音質もかなり異なる。 19mmツイーターと75mmミッドウーファーを搭載し、先代より音量が75%大きく、低音が50%強くなったという。 発表前から「枕」と呼ばれていた丸みを帯びた形状で、全体がNest Miniなどと同様のファブリック(70%使用済み再生プラスチック)で覆われている。色は、残念ながら日本ではChal

                          Google、音質重視スマスピ「Nest Audio」を1万1550円で発売
                        • 商談質問にAIシステムが自動回答 バベルが11億円調達 - 日本経済新聞

                          オンライン商談の内容を自動で文字起こしするソフトウエアを手掛けるバベル(東京・渋谷)は第三者割当増資で11億2000万円を調達した。商談相手の問い合わせにリアルタイムで答える人工知能(AI)システムを開発する。各業界の専門用語など対応できる単語数を増やし、文字起こしの精度を高める。新システムに向けて、AIによる音声認識を専門とする東京大の斉藤英治教授と共同研究している。調達資金はAI専門のエン

                            商談質問にAIシステムが自動回答 バベルが11億円調達 - 日本経済新聞
                          • Spotifyは「ポッドキャストのYouTube」になれるか? | Coral Capital

                            ここ数か月の間に、Spotifyはジョー・ローガン(Joe Rogan)とキム・カーダシアン(Kim Kardashian)の両方とポッドキャスト番組の独占契約を結んだことを発表しました。前者との契約は100億円以上に及ぶとも言われていて、後者の契約の金額面については公表されていませんが、おそらく高額です。このブログを読んでいる日本の読者からしてみれば、何が何だかさっぱりわからないかもしれません。ジョー・ローガンって誰?キム・カーダシアンって、あの有名なソーシャルメディア・インフルエンサーのこと?ポッドキャストを聴いている人なんて実際にいるのか、と思う人も多いでしょう。これには以下の背景があります。 ローガンの「ジョー・ローガン・エクスペリエンス(The Joe Rogan Experience)」という番組は、世界のポッドキャスト・チャートで常に上位にランクインしていて、毎月2億回近くダ

                              Spotifyは「ポッドキャストのYouTube」になれるか? | Coral Capital
                            • 日本語音声認識API主要5社比較

                              1. 日本語音声認識の比較実験実際にそれぞれのAPIを使用して同一の音声データをテキスト化。 正解のテキストと比較して認識精度を評価する。 1.1. 音声認識の評価指標CER(Character Error Rate)によって評価を行う。 CERとは、例えば正解テキストが「こんにちは」だったとして「こんばんは」と認識された場合、 5文字中2文字が間違っているため「CER=2/5=40%」のようにエラー率を計算する評価指標。 pythonではjiwerというライブラリを使用することで簡単に計算できる。 エラー率なので値が小さいほど精度が良いことになる。 本記事における実験結果ではCERの逆数、つまり正解率を記載しているため値が大きいほど精度が良い。 1.2. 認識する音声データ声優事務所の音声サンプルを使用した。 アイムエンタープライズの公式WEBサイトは音声サンプルの長さがほどよく、ファイ

                                日本語音声認識API主要5社比較
                              • Webページで音声による操作を可能にするボイスコマンドライブラリ・「Artyom.js」

                                Artyom.jsはWebページで音声による操作を可能にするボイスコマンドライブラリです Google NowやSiri、Cortanaなどの音声アシスタントの簡易版みたいなやつです 例えば挨拶したら返事したり翻訳を命令したり別のWebサイトに移動したりなど、予めボイスコマンドを決めておいて回答をセッティングする、みたいな流れで構築します 利便性というより視覚異常の方へのサポートになりそうでしょうか。まだちゃんと触ってないので暇を見て試してみようと思います。ライセンスはMIT Artyom.js

                                  Webページで音声による操作を可能にするボイスコマンドライブラリ・「Artyom.js」
                                • ケアコネクトジャパンとエクサウィザーズ、共同で介護記録のAI音声入力システム開発

                                  ケアコネクトジャパンは、AIを利活用したサービスによる社会課題解決に取り組むエクサウィザーズと、業務提携を開始しました。蓄積された介護ビッグデータと、エクサウィザーズがもつAI技術を活かすことで、介護現場をアシストする新システム創出に向けて共同開発を行います。 このAIニュースのポイント ケアコネクトジャパンは、エクサウィザーズと、業務提携を開始 介護ビッグデータと、AI技術を活かすことで、介護現場をアシストする新システムを共同開発 訪問介護スタッフ向けに、「音声での記録」「インカム機能」を活用した介護記録環境を目指す 介護事業所の運営をトータルにサポートする介護記録ソフト「CAREKARTE」を販売する株式会社ケアコネクトジャパンは、AIを利活用したサービスによる社会課題解決に取り組む株式会社エクサウィザーズと、業務提携を開始しました。 この業務提携では、ケアコネクトジャパンがもつ介護記

                                    ケアコネクトジャパンとエクサウィザーズ、共同で介護記録のAI音声入力システム開発
                                  • https://ocw.u-tokyo.ac.jp/lecture_files/engin_01/5/notes/ja/E1-DPmatching.pdf

                                    • 【簡単かつ高精度】音声認識AIのWhisperを実装してみた

                                      はじめに 画像生成AIのDALL・E2や文章生成AIのGPT-3で何かと話題のOpenAIですが、今度は、音声認識の世界でもやってくれました。 2022年9月22日に高性能な音声認識AIのWhisperを発表したのです。日本語にも対応していたので、早速、GoogleColaboratoryで実装してみました。 驚くほど簡単に実装でき、かつ、驚くほど精度が高くて、びっくりしました。 ここでは、Whisperの概要について簡単に触れた上で、GoogleColaboratoryでの実装方法、精度をお示ししたいと思います。 Whisperについて OpenAIの公式サイトから、概要をご紹介します。 Whisperは、ウェブから収集した68万時間に及ぶ多言語・マルチタスク教師付きデータで学習させた自動音声認識(ASR)システムです。 大規模で多様なデータセットを使用したことで、アクセント、背景雑音、

                                        【簡単かつ高精度】音声認識AIのWhisperを実装してみた
                                      • Man-Computer Symbiosis

                                        Man-Computer Symbiosis J. C. R. Licklider IRE Transactions on Human Factors in Electronics, volume HFE-1, pages 4-11, March 1960 Summary Man-computer symbiosis is an expected development in cooperative interaction between men and electronic computers. It will involve very close coupling between the human and the electronic members of the partnership. The main aims are 1) to let computers facilitat

                                        • 文字起こしできるボイスレコーダーアプリ「オートメモ」

                                            文字起こしできるボイスレコーダーアプリ「オートメモ」
                                          • Microsoft、ユーザーの音声データを人が聞く可能性をプライバシーポリシーに明示

                                            米Microsoftは8月12日(現地時間)、プライバシーポリシー「Microsoftにおけるプライバシー」の「Microsoftのプライバシーに関する声明」を改定し、ユーザーの音声データの一部を人間が聞く可能性があることを明示した。 同社が音声データを人間に聞かせていることを7日に報じた米Motherboardが15日に報じた。 この報道で、MicrosoftはCortanaおよびSkype翻訳の性能改善のために、匿名化したユーザーの音声データの一部を人間が聞いていることを認めた。 改定されたのは、プライバシーポリシーの「ユーザーの個人データの利用について」という項目。「充実した対話型エクスペリエンスをユーザーに提供」する目的での個人データの処理には、「自動化および手動(人的)による処理方法の両方が含まれます」とある。さらに、「自動化されたメソッドは、多くの場合、手動の方法に関連しサポー

                                              Microsoft、ユーザーの音声データを人が聞く可能性をプライバシーポリシーに明示
                                            • Appleは「SiriOS」をリリースするか | スラド アップル

                                              Appleが2020年に「SiriOS」をリリースするとの予測が出ているそうだ(ギズモード・ジャパン、Engadget日本版)。 この予測はルクセンブルクのベンチャー投資会社Mangrove Capital Partnersによる報告書内で触れられているとのこと。SiriOSは音声アシスタントデバイス向けのOSで、これによってAppleは同社の音声アシスタントエコシステムを広げることができるという。 ただ、あくまで予測であり実際にこういった製品がリリースされるかどうかは不明。

                                              • iOS・Android版「Cortana」アプリ、1月31日にサポート終了(少なくとも英加豪で)

                                                米Microsoftの音声アシスタント「Cortana」のiOSおよびAndroidアプリのサポートが、少なくとも英、カナダ、オーストラリアでは2020年1月31日にサポート終了になる。これらの国のサポートページに基づいて米ブログメディアのMSPoweruserが11月16日(現地時間)に報じた。 モバイル版Cortanaアプリは、2015年にリリースされた。Androidアプリは日本語に未対応だ。 上記の国以外のサポートページにはこの告知ページがないという。日本のサポートページにもなかった。 このページの説明によると、サポート終了後はリマインダーやリストはモバイルアプリと「Microsoft Launcher」で機能しなくなるが、WindowsのCortanaで入力したリマインダーやリストは「Microsoft To Do」アプリに自動的に同期する。 この変更は、Cortanaを「Mic

                                                  iOS・Android版「Cortana」アプリ、1月31日にサポート終了(少なくとも英加豪で)
                                                • Siriとユーザーの会話、一部を人間が聞いて分析していた―― Appleが問題の改善策を発表

                                                  iOSの音声アシスタント「Siri」とユーザーの会話を、分析のために下請け業者が聞いていたとする報道について、Appleが謝罪し、改善案を発表しました。現在、分析は全世界で停止しており、問題には今後のアップデートで対応すると説明しています。 Appleの発表 問題が明るみに出たのは、分析を請け負った業者を情報源としたThe Guardianの記事。Siriとの会話で録音された一部の会話を、人間のスタッフが品質向上のための作業「グレーディング」に用いているといった内容でした。 The Guardianの記事 情報の提供者は、分析元のデータに医師と患者のやり取りや、違法な取引など、私的な会話が大量に含まれていたと説明。Siriが誤動作で起動したせいで、ユーザーが意図しないまま録音されたものとみています。 The Guardianの取材に対し、Appleは事実を認める一方で、当該の音声データはA

                                                    Siriとユーザーの会話、一部を人間が聞いて分析していた―― Appleが問題の改善策を発表
                                                  • 【Python/pydub】mp3, wavの相互変換

                                                    mp3・wavの相互変換(pydub) Pythonモジュール「pydub」では、sound.exportメソッドで音声ファイルの形式(拡張子)を変換できます。 インストール(pip) pip install pydub サンプルコード サンプルプログラムのソースコードです。 ■wav→mp3 # -*- coding: utf-8 -*- import pydub sound = pydub.AudioSegment.from_wav("input.wav") sound.export("output.mp3", format="mp3") ■mp3→wav # -*- coding: utf-8 -*- import pydub sound = pydub.AudioSegment.from_mp3("input.mp3") sound.export("output.wav", for

                                                      【Python/pydub】mp3, wavの相互変換
                                                    • SpeechBrain: A PyTorch Speech Toolkit

                                                      2023 Online SpeechBrain Summit Register for free and join us online on August 28th for our first SpeechBrain Online Summit endorsed by ISCA as an official Interspeech 2023 satellite event! In this one-day summit, you will learn about the latest developments and updates of SpeechBrain, and engage in an open and collaborative discussion with the community. The summit features four industrial talks f

                                                      • https://twitter.com/izutorishima/status/1572882677476499462

                                                          https://twitter.com/izutorishima/status/1572882677476499462
                                                        • chatGPTとwhisperで議事録作成APIを作ってみた(備忘録)

                                                          はじめに 本記事では、議事録作成の自動化を目的としてOpenAIのChatGPTとWhisperのAPIを組み合わせたワークフローを紹介します。このワークフローでは、まず会議の録音データをWhisperで文字起こしし、その後、ChatGPTを用いて要約を行います。 使用したコードはこちらで共有しています:GitHubリポジトリ ワークフロー ワークフローの概要です。詳細は後述します。 Whisper周りの工夫 25MBのファイル容量上限 Whisper APIは25MBのファイル容量上限があります。そのため容量の大きい動画であれば音声のみを抽出し、音声の圧縮をするなどの対応が必要があります。 では、25MBは具体的にどのくらいの録音時間に相当するのでしょうか?4G音声の電話のビットレート(12.65kbps)を基準にすると、およそ4.4時間の録音が可能です(参考記事)。今回のデモでは、最大

                                                            chatGPTとwhisperで議事録作成APIを作ってみた(備忘録)
                                                          • Otterの録音機能とステレオミキサーで動画の書き起こしをする(Windows10) - blog-RuinDig

                                                            インポート機能の制限 自分の環境 ステレオミキサーの設定 ステレオミキサーでの入力ができない場合 インポート機能の制限 英語の音声書き起こしサービスのOtterは無料プランでの動画と音声ファイルのインポートに新たな制限を設けた。 Otterの無料プラン これまで これから 録音 1ヶ月につき600分まで書き起こせて、1件の長さは3時間が上限。 1ヶ月につき600分まで録音可能。1件の長さは40分に制限。 インポート 1ヶ月につき600分まで書き起こせて、動画ファイルや音声ファイルのインポートの回数に制限はなく、1件の長さは3時間が上限。 無料プランではインポートの長さは1件40分に制限されて、インポートの回数は1アカウントにつき最大3件に制限される。 ruindig.hatenablog.jp 動画の書き起こしにOtterのインポート機能がとても役立っていたので便利だったのだが、インポート

                                                              Otterの録音機能とステレオミキサーで動画の書き起こしをする(Windows10) - blog-RuinDig
                                                            • 【Whisper】Pythonで音声ファイルを書き出ししてみよう!

                                                              Whisperとは Whisperとは、OpenAIが開発している汎用的な音声認識モデルです。 Web上から収集した68万時間におよぶ音声データで学習され、音声翻訳や言語識別だけでなく、多言語音声認識を行うことができるマルチタスクモデルでもあるモデルになります。 Whisperを用いることで、音声からの文字起こしと音声からの翻訳処理を行えます。 この記事では2つの方法をPythonで解説します。 https://openai.com/blog/whisper/ https://github.com/openai/whisper 日本語の単語誤り率(WER/Word Error Rate)は6.4%とグラフに記載があります。 この数値は、Whisperが対応している他の言語と比較しても、上位に位置しており、高い精度で文字起こしが可能だと解釈できそうです。 また、5つのモデルサイズが提供されて

                                                              • 会議ツール問わず、ワンクリックで書き起こし。自動議事録AI「YOMEL」 | Techable(テッカブル)

                                                                福岡発スタートアップのアーニーMLG株式会社は、ワンクリックで全参加者分の発言の議事録を作成する自動議事録AI「YOMEL」を開発し、1月5日(木)より正式にサービス提供を開始しました。 議事録作成の手間を省くYOMELは、会議や商談などの場面における議事録作成の工数・負担を軽減するサービスです。 発話者ごとにAIが書き起こしをするため会話記録を残しておくことができるほか、会議中の重要な発言をワンクリックでメモに転記するだけで、発言内容を端的に要約する機能も搭載しており、議事録作成や要約作成の手間を省くことができます。 同サービスは、ユーザーが専用アプリをインストールし、会議開始時と終了時にデスクトップ上のボタンをクリックするだけで、全参加者の発言が書き起こされた会議記録のURLと、話中に転記したメモをもとに作成された議事録テキストを発行します。 オンライン会議ツールと連携して使用するサー

                                                                  会議ツール問わず、ワンクリックで書き起こし。自動議事録AI「YOMEL」 | Techable(テッカブル)
                                                                • TechCrunch | Startup and Technology News

                                                                  India’s Adani Group is in discussions to venture into e-commerce and digital payments, according to a report, as the conglomerate seeks to diversify its portfolio and compete with Mukesh Ambani’s…

                                                                    TechCrunch | Startup and Technology News
                                                                  • ChatGPTとUnityでキャラクター対話システムを構築した - Qiita

                                                                    はじめに お気に入りキャラクターとおしゃべりできるものを作りました。 このようなシステムは他の人がTwitterでも作っていて二番煎じなのですがどんなものを組み合わせて作ってるのかだったりを書こうと思います。 使用技術など デバイス Looking Glass Portrait 裸眼立体視ディスプレイです。(公式サイト) このディスプレイがなくても対話システムは作れます。でも裸眼立体視ってロマンがあって、女の子をいろんな方向から見れるのは嬉しいですよね! アセットなど DynamicBone 髪の毛や胸が揺れるアセットです。(アセットストアページ) 髪の毛が揺れるのは嬉しいことなので使います。 OVRLipsync Oculusが作ったオーディオデータから口パクを作るアセットです。(公式サイト) 対話するのに口が動かないのは致命的なので使います。 DictationRecognizer 音

                                                                      ChatGPTとUnityでキャラクター対話システムを構築した - Qiita
                                                                    • プレイブレーン、AIリアルタイムボイスチェンジャーのベータ版を無料提供開始

                                                                      プレイブレーンはWindows PC専用ボイスチェンジャーアプリ「Voicemod」が、AIを搭載したボイスフィルターをリリースしました。全てのVoicemodユーザーがAIリアルタイムボイスチェンジャーのベータ版を利用出来ます。 このAIニュースのポイント Windowsアプリ「Voicemod」にAIボイスフィルター機能の無料ベータ版が追加 有償無償問わず「Voicemod」入手後にベータプログラムへ申し込むだけで誰でも利用可能 自分の声が異性やファンタジーな世界観のキャラクターに瞬時に変身 株式会社プレイブレーンはWindows PC専用ボイスチェンジャーアプリ「Voicemod」が、AIを搭載したボイスフィルターをリリースしました。2022年6月16日から全てのVoicemodユーザーがAIリアルタイムボイスチェンジャーのベータ版を利用出来ます。 「Voicemod」は、ゲーム配信

                                                                        プレイブレーン、AIリアルタイムボイスチェンジャーのベータ版を無料提供開始
                                                                      • Pixel、「この曲なに?」が珍回答連発~トイレの音や電動歯ブラシの音を名曲と誤認識 - iPhone Mania

                                                                        Pixel、「この曲なに?」が珍回答連発~トイレの音や電動歯ブラシの音を名曲と誤認識 2021 12/21 GoogleのPixelシリーズには現在流れている音楽をマイクで聴き取り、曲名やアーティストを表示する「この曲なに?」という機能が搭載されていますが、珍回答を連発して話題になっています。 トイレの水を流す音や電動歯ブラシの音、削岩機の音などを名曲と誤認識しているようです。 トイレの水を流す音をAdeleの「Rumor Has It」と誤認 Redditユーザーの報告によると、Pixel 6 Proで「この曲なに?」をトイレの水を流す音に対して使用したところ、Adeleの「Rumor Has It」だと認識したとのことです。 この投稿に触発されて他のユーザーもさまざまな音に対して「この曲なに?」を使用し、 電動歯ブラシ: Duneの「Dream of Arrakis」、REMの「The

                                                                          Pixel、「この曲なに?」が珍回答連発~トイレの音や電動歯ブラシの音を名曲と誤認識 - iPhone Mania