並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 269 件 / 269件

新着順 人気順

音声認識の検索結果241 - 269 件 / 269件

  • 「音声テック業界カオスマップ 2020年度版」が公開 文字起こし・議事録作成、音声認識などのサービスが並ぶ

    昨今、コロナウィルスの影響で働き方が強制的に変化を強いられる中、この1〜2ヶ月で多くの音声テックのプレーヤーが出てきた。とりわけ、文字起こしや音声を議事録作成に活用するサービスは毎週のように提供するプレーヤーがプレスリリースを発出している。音声テックが注目される今、カオスマップを作るべきタイミングだと考えたとのことだ。

      「音声テック業界カオスマップ 2020年度版」が公開 文字起こし・議事録作成、音声認識などのサービスが並ぶ
    • TBSが開発したAIリアルタイム字幕生成システムが音声認識APIと連携

      音声認識開発プラットフォーム「AmiVoice Cloud Platform」にて提供されているAmiVoice 音声認識APIが、TBSテレビが開発したAIリアルタイム字幕生成システム「もじぱ」に採用され、トラフィック・シムから販売が開始されました。 このAIニュースのポイント AmiVoice 音声認識APIがAIリアルタイム字幕生成システム「もじぱ」に採用 システムによって字幕制作が「誰でも」「正確に」「ひとりで」可能に 全ての人の情報アクセシビリティが向上 アドバンスト・メディアの音声認識開発プラットフォーム「AmiVoice Cloud Platform」にて提供されているAmiVoice 音声認識APIが、TBSテレビが開発したAIリアルタイム字幕生成システム「もじぱ」に採用され、トラフィック・シムから販売が開始されました。 「もじぱ」は、従来特殊なスキルが必要とされたテレビ番

        TBSが開発したAIリアルタイム字幕生成システムが音声認識APIと連携
      • ChatGPTと同時公開、音声認識「Whisper」APIで現実味が増す「2次元嫁との会話」 - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

        あの日夢見たGateboxは実現するのだろうか(Gateboxのウェブサイトから) 3月1日にOpenAIが公開したChatGPTのAPI(GPT-3.5-Turbo)が世界中で話題になっています。日本国内でも続々と事業者が(レベルの差はあれ)このAPIを叩いて何ができるか模索しはじめていて、API公開からわずか1週間ですがLINE連携のサービス「AIチャットくん」には20万人が殺到しました。 開始3日で20万人登録サービスもーーChatGPTで激変するネットサービスたち(前半) メカニカル仏にエンジニアのレジュメ自動生成ーーChatGPTで激変するネットサービスたち(後半) 先日、メカニカル仏を作っている家入一真さんとチャットで「なんかスマホアプリ作ってた最初の頃と似てるよね」っていう話をしていたのですが、本当にそんな感じなんですよね。2010年代前半も新しいプラットフォームで何ができる

          ChatGPTと同時公開、音声認識「Whisper」APIで現実味が増す「2次元嫁との会話」 - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
        • 音声認識・音声合成で ChatGpt と連携させてるけど、結構いい感じだぞ

          音声認識・音声合成で ChatGpt と連携させてるけど、結構いい感じだぞ

            音声認識・音声合成で ChatGpt と連携させてるけど、結構いい感じだぞ
          • ただテキスト化してもダメ――日本語音声認識の老舗が議事録ツールをリニューアル

            2019年10月15日(米国時間)に米グーグル(Google)が発表したスマートフォン「Google Pixel 4」では、音声レコーダーの文字起こし機能が搭載された。スマートフォンやAIスピーカー(スマートスピーカー)が普及する中、一般の生活においても音声をテキストに変換する音声認識は欠かせないものになりつつある。次に課題になるのは、いかにしてこのテキスト化されたデータを活用できるかだ。 音声認識エンジンなどを提供するアドバンスト・メディアは、音声認識技術を使った議事録作成ツール「AmiVoice スーパーミーティングメモ」を機能拡張し、会議の事前準備や事後報告などを容易にして会議の効率・効果を高める「会議改革ソリューション」として改めて発表した(プレスリリース)。2019年11月2日に提供を開始する。 同製品は、もともと同社の音声認識技術「AmiVoice」によって会議での発言をリアル

              ただテキスト化してもダメ――日本語音声認識の老舗が議事録ツールをリニューアル
            • Amazon.co.jp: Fire TV Cube - 4K・HDR対応、Alexa対応音声認識リモコン付属 | ストリーミングメディアプレーヤー: Digital Devices 4

              Fire TV Cubeは、Amazon Fire TVシリーズ史上最もパワフル。高速起動でお気に入りの映画や動画がすぐに楽しめます Fire TV CubeのAlexaに話しかけるだけで、テレビの電源オン・オフ、音量操作をはじめ、各種アプリの起動や対応コンテンツを音声で操作することができます スピーカー内蔵なのでテレビをつけていなくても、Alexaに天気予報を聞いたりラジオをかけたりすることもできます ヘキサコアが生み出す4K Ultra HD。Dolby Vision、HDR、HDR10+、Dolby Atmosの鮮明な映像、臨場感のあるサウンドを楽しめます Prime Video、YouTube、Netflix、Hulu、TVer、Apple TV、DAZN、ABEMA、ニュースやスポーツまでお気に入りのコンテンツを大画面で さらにプライム会員なら、Prime Videoのうち会員特

                Amazon.co.jp: Fire TV Cube - 4K・HDR対応、Alexa対応音声認識リモコン付属 | ストリーミングメディアプレーヤー: Digital Devices 4
              • Fire TVユーザーなら「New Alexa対応音声認識リモコン Pro」は買わなきゃ損レベル - Phile-web

                Amazonが「New Alexa対応音声認識リモコン Pro」(2022年発売)をリリース。Fire TVシリーズ付属リモコンの強化型に当たる別売オプションだ。

                  Fire TVユーザーなら「New Alexa対応音声認識リモコン Pro」は買わなきゃ損レベル - Phile-web
                • OpenAI、「ChatGPT」のiOS向けアプリ配信 音声認識システム「Whisper」で言語の聞き分けが可能

                  米OpenAIは5月18日(現地時間)、対話型AIの「ChatGPT」をiPhone(iOS)向けアプリとしてリリースし、米国のApp Storeで配信を始めた。今後、数週間以内に他の国への展開も予定する。Android用アプリの開発も明らかにしているが、具体的な配信開始日は公表していない。 ChatGPTはユーザーが自然言語を用いて、AIと対話できるのが大きな特徴。質問に対する答えをチャット形式で得られる他、文章やコンテンツの作成も可能だ。初めて一般公開されたのは2022年11月で、その言語モデルにはGPT-3.5が搭載された。2023年3月にはその次期バージョンのGPT-4が発表、月額20米ドルのChatGPT Plusの契約が必須となる代わりに、新言語モデルゆえに学習した知識量も自然らしさも増した。 iOSアプリでもChatGPTの基本的な機能を利用でき、GPT-4による高度な対話だ

                    OpenAI、「ChatGPT」のiOS向けアプリ配信 音声認識システム「Whisper」で言語の聞き分けが可能
                  • 「Windows 11 バージョン22H2」環境の日本語音声認識の問題は解決 ~Microsoftが公表/プレビュー更新プログラム「KB5026446」の適用を

                      「Windows 11 バージョン22H2」環境の日本語音声認識の問題は解決 ~Microsoftが公表/プレビュー更新プログラム「KB5026446」の適用を
                    • ほぼ完璧な文字起こしができるAI音声認識Whisperのインストール

                      「動画・音声の文字起こしを自動で行いたい」 「AIを使って、無料で精度の高い音声認識を試したい」 このような場合には、Whisperがオススメです。 この記事では、ほぼ完璧な文字起こしができるWhisperについて解説しています。 本記事の内容 Whisperとは?Whisperのシステム要件WhisperのインストールWhisperの動作確認 それでは、上記に沿って解説していきます。 Whisperとは? Whisperとは、汎用的な音声認識モデルになります。 Whisperは、OpenAIによって開発されています。 OpenAIと言えば、「DALL・E 2」や「GPT-3」の開発で有名ですね。 そこにWhisperも投入してきたという流れになります。 OpenAIによる、Whisperの紹介ページは以下。 Introducing Whisper https://openai.com/b

                        ほぼ完璧な文字起こしができるAI音声認識Whisperのインストール
                      • Web雑誌「コールセンター向けAI活用事例集」を無料配布 ~注目のAI企業5社がチャットボットや音声認識、リアルタイム文字起こしなどの活用方法を解説~ | DXを推進するAIポータルメディア「AIsmiley」

                        AIポータルメディア「AIsmiley」は、コールセンター向けのAI活用事例をまとめたWeb雑誌「コールセンター向けAI活用事例集」を公開します。注目のAI企業5社がチャットボットや音声認識、リアルタイム文字起こしなどの活用方法を解説します。 コールセンターでのAI活用とは? 近年、コールセンターの人手不足解決やオペレーターの業務支援、お客様の声分析などでAIを活用したソリューションがたくさん導入されております。AIチャットボットによる自動応答をはじめ、音声認識を活用した文字起こしを行い、オペレーターとお客様の会話を可視化するなどの活用方法がございます。また、自然言語処理を使って、可視化された会話の文章を要約したり、オペレーターのナレッジを共有することができ、従来のコールセンター業務でAIソリューションによる課題解決が期待されています。 コールセンターの課題とAIの必要性 コールセンターに

                        • 音声認識API「AmiVoice Cloud Platform」に、長時間の音声データを扱えるAPIを追加 | IT Leaders

                          IT Leaders トップ > テクノロジー一覧 > アプリケーション > 新製品・サービス > 音声認識API「AmiVoice Cloud Platform」に、長時間の音声データを扱えるAPIを追加 アプリケーション アプリケーション記事一覧へ [新製品・サービス] 音声認識API「AmiVoice Cloud Platform」に、長時間の音声データを扱えるAPIを追加 2021年10月8日(金)日川 佳三(IT Leaders編集部) リスト アドバンスト・メディアは2021年10月8日、音声認識APIサービス「AmiVoice Cloud Platform」を拡充したと発表した。同日付で、長時間・大容量の音声データをまとめて文字化することに適した「非同期HTTP音声認識API」をリリースした。既存の「WebSocket音声認識API」(リアルタイム音声認識用)と「HTTP音声

                            音声認識API「AmiVoice Cloud Platform」に、長時間の音声データを扱えるAPIを追加 | IT Leaders
                          • なぜ鬼滅の刃は人気になったのか。作品の中に散りばめられた日本人が喜ぶ仕掛けがあった - 音声認識だけで書く誤字雑事ログ

                            日本人に馴染み深い時代劇の要素も多い。仇討ちは時代劇の中でも日本人が大好きなテーマの1つだし、鬼殺隊は剣士の道場のようで、柱は武道の世界で例えれば師範のような存在だ。水、雷、炎など闘いには「型」があり、バリエーションが豊富なため飽きることがない。子供たちがお気に入りのキャラクターの型を真似てみたくなる仕掛けが満載だ。 \ 無料期間中に鬼滅の刃を一気見しよう! / 登場人物もそれぞれキャラが濃く魅力的。アイドルグループではないが、好きなキャラクターを選べる“推し”的な楽しみもあるから、それだけファンの幅も広がる。主人公の“王道”キャラも広く受け入れられる一つの要素だ。炭治郎は、強さと弱さを併せ持ち、心優しい真っ直ぐな少年だが、どこか抜けていて不器用なところがある。ドラマ『恋はつづくよどこまでも』(TBS系)の主人公・七瀬のように、ここ数年話題になったドラマの主人公たちは、みな同じようなキャラ

                              なぜ鬼滅の刃は人気になったのか。作品の中に散りばめられた日本人が喜ぶ仕掛けがあった - 音声認識だけで書く誤字雑事ログ
                            • オープンソースで作成する音声認識Web Server -Vol.02 / 開発者向けブログ・イベント | GMO Developers

                              1.完成イメージ Web Speech APIと同じ動作をすることを目標とします。ブラウザ上でリアルタイムに音声認識し短文としてウェブページ上に表示します。 Web Speech APIでの実装は下記となります。htmlファイルとして保存しブラウザで起動すれば動作可能です。 ※インターネット環境が必要です。 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>Web Speech API</title> </head> <body> <h2>Web Speech API</h2> <button id="start_btn">start</button> <button id="stop_btn">stop</button> <small id="status"></small> <h3>Recognition Resul

                                オープンソースで作成する音声認識Web Server -Vol.02 / 開発者向けブログ・イベント | GMO Developers
                              • Android SpeechRecognizerで常時オフライン音声認識をする

                                Androidでの音声認識Androidには"OK Google"で会話できるGoogleアシスタントがありますが、音声をテキストに変換する"Speech-To-Text"(STT)機能があります。 キーボードの音声入力で使えますが、SpeechRecognizerというAPIで自分のアプリに組み込む事ができます。 GoogleアシスタントもSpeechRecognizerも通常はオンラインで音声認識させますが、SpeechRecognizerは端末にオフライン用の音声認識モデルをダウンロードしておく事でオフラインでも音声認識を行う事ができます。 こちらの方の記事を参考にしました。 Android Speech Recognizerを使いこなす 連続音声認識っぽくなったAndroid SpeechRecognizer速報 サンプル仕様今回、音声認識精度のテスト用にSpeechRecogni

                                  Android SpeechRecognizerで常時オフライン音声認識をする
                                • 【VR英会話】臨場感溢れるVR英会話とは?売場のやさしい英会話VR。アプリ。音声認識。実践力アップ。初心者向け。 - お得情報配信『Muusu Gamesのムースブログ』

                                  おはようございますMuusu Gamesのムースです^ ^ 今回は初心者向けの「売場のやさしい英会話VR」というものをご紹介いたします。 VRゴーグルを装着すると、そこは売場。 そこで出会う人たちと英語でコミュニケーションをとるという内容です。 高級メダカはこちら☆大人気楊貴妃めだかもいます☆ 25分129円~のマンツーマンレッスンなら「レアジョブ英会話」 目次 1.VRゴーグルをつけて英会話をするのですか? 2.必要なものと費用はいくら? 3.VR酔いをしそう。気持ち悪くなりそうなのですが、、、 4.まとめ 1.VRゴーグルをつけて英会話をするのですか? VRゴーグルをつけて英会話をします。 VRゴーグル内では売場の世界が広がり、 その中で出会う人たちが英語で話しかけてきます。 それを音声認識などであなたが受け答えをします。 つまり、英会話をすることになります。 25分129円~のマンツ

                                    【VR英会話】臨場感溢れるVR英会話とは?売場のやさしい英会話VR。アプリ。音声認識。実践力アップ。初心者向け。 - お得情報配信『Muusu Gamesのムースブログ』
                                  • 日本語用の音声認識API、「AmiVoice」がシェア1位の理由 | Ledge.ai

                                    サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                      日本語用の音声認識API、「AmiVoice」がシェア1位の理由 | Ledge.ai
                                    • Google翻訳を使って音声認識でブログ記事を書く方法なんだよ - チコちゃんに叱られないブログ

                                      ↑音読で楽しんでね 2023年12月13日 水曜日 2023年度 静吉チャンネル プレゼンツだよ😍 このブログでは音声認識で文章を作成する方法を何度か紹介した。 i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com 過去記事を貼り付けてみるとこれだけあった。 で、ブログ主が音声入力にこだわっているかというと、それはスマホが原因なのである。パソコンでブラインドタッチによる文章入力が出来るので、パソコンでブログを書いたりする場合は音声認識は必要ないのだ。 ツイッター事Xもパソコン版でなら何も問題はないけど、スマホでこれらSNSをしようとすると、ぼくの指先の太さと視力のア

                                        Google翻訳を使って音声認識でブログ記事を書く方法なんだよ - チコちゃんに叱られないブログ
                                      • 大容量データの音声認識(CNN)をCPU上でやった作業ログ【機械学習・ディープラーニング】 - アプリとサービスのすすめ

                                        今回は音声認識のデータセット「ESC-50」をCNNで分類した。 特にこだわったのが、GPUでも普通にやったらOOMエラーが出るくらいの大容量のデータセットを、kerasのfit_generatorメソッドを使ってCPU上でもできるようにしたこと。 あとは音声認識は触れたことなかったので、前処理から学習するまでの作業ログ。 目次 1.音声データセット(ESC-50) 2.音声データの水増し(Augmentation) 3.水増した音声データの保存と読み込み 4.データ前処理とCPU上で学習(CNN) 1.音声データセット(ESC-50) 今回は音声データセット「ESC-50」を使う。 ESC-50の音声は環境音・自然音からなる声を含まない音。 動物の鳴き声、雨の音、人間の咳、時計のアラーム、エンジン音など50クラス。それをCNNで分類してみる。 ファイル形式は拡張子が.wavの音声。サイト

                                          大容量データの音声認識(CNN)をCPU上でやった作業ログ【機械学習・ディープラーニング】 - アプリとサービスのすすめ
                                        • End-to-End音声認識の高速化を実現するために LINEが取り組む研究開発とGPUの効率的な利用

                                          レイテンシーの問題 木田祐介氏:それでは、後半のパートは私、木田から発表します。 まず簡単に自己紹介します。私はLINEでSpeechチームという音声認識技術の研究開発を行うチームのマネージャーをしています。これまで、東芝の研究所やヤフーで音声認識技術の開発に従事していまして、2020年に入社しました。どうぞよろしくお願いします。 私のパートでは、今我々が力を入れている、End-to-End音声認識の高速化を中心にお話ししようと思います。 ヒョクスさんのパートでもお話があったように、End-to-End音声認識は、非常に魅力的な技術です。しかし、あらゆる側面において常に万能というわけではありません。特に精度の高いEnd-to-Endのモデルは、音声信号全体を一度読んだあとに認識をスタートするような仕組みになっていまして、認識結果を出すまでに時間がかかってしまいます。 こちらに簡単な例をお見

                                            End-to-End音声認識の高速化を実現するために LINEが取り組む研究開発とGPUの効率的な利用
                                          • 音声認識アプリをC#コンソールアプリケーションで作ってみた。[Windows.Media.SpeechRecognition] - nakadasandaのブログ

                                            前回の続きcrtanaで使われている、音声認識をUWPで使った。 UWPは、Windowsの環境でwindowsのアプリストアから提供するしか方法がない、これでは利用が大きく制限されるので今度は、C#のデスクトップアプリ、exeファイルとして実行する方法について説明していきます。 nakadasanda.hatenablog.jp UWPを使うことでwindows10で使うことができる(Cortanaや、windows10の通知機能など)などを多く使うことができます。ということで初めて行きます。 visual studioを起動してアプリケーションを作ります。 NugetでUWPapiを追加する。 Visual Studio で、 [ツール] -> [NuGet パッケージ マネージャー] -> [パッケージ マネージャー設定] の順にクリックします。 [既定のパッケージ管理形式] に [

                                              音声認識アプリをC#コンソールアプリケーションで作ってみた。[Windows.Media.SpeechRecognition] - nakadasandaのブログ
                                            • OpenAI、ChatGPTと音声認識モデルWhisperのAPI提供を開始

                                              ChatGPT APIで提供されるモデルはChatGPTと同じ「gpt-3.5-turbo」で、利用価格は1000トークンあたり0.002米ドルと、GPT-3.5と比較して10分の1となっている。 さらに、特定のモデルバージョンとシステムパフォーマンスをより詳細に制御したいユーザー向けに、専用インスタンスの提供も行っており、APIはAzure上で実行され、その処理のために予約された計算インフラストラクチャの割当に対して、期間ごとに料金を支払う必要がある。1日あたり最大4億5000万トークンを超える開発者にとっては、経済的なメリットがあるといえる。 Whisper APIは、最新のv2モデルを利用でき、1分あたり0.006ドルでのオンデマンドアクセスが可能となっている。ソース言語で書き起こすtranscriptions(転記)、または英語で書き起こすtranslations(翻訳)ができ、m

                                                OpenAI、ChatGPTと音声認識モデルWhisperのAPI提供を開始
                                              • IPパートナーズ、より高品質な音声認識アノテーションサービス「アノラボ」リリース

                                                このAIニュースのポイント 低品質な教師データゆえに期待される精度が出せず、AI導入を諦めているケースに向けたもの IPパートナーズは優秀なアノテーターを用いることで、一般のアノテータ―に比べて、エラー率を10分の1以下にすることに成功 検査工程には特に優秀なアノテータ―を配置し、品質管理リーダーがアノテータ―の教育と工程品質のパトロールを担当していく 株式会社IPパートナーズは、2022年11月11日(金)に、音声認識AIに特化した高品質アノテーションサービス「アノラボ」を提供開始しました。 今後、ますます活用の場が広がると期待されているAIですが、AIプロジェクトの成功率は低く、その原因の多くは教師データのラベル付け(アノテーション)品質に関係していると言われています。低品質な教師データゆえに期待される精度が出せず、AI導入を諦めているケースが少なくありません。言い換えると、アノテーシ

                                                  IPパートナーズ、より高品質な音声認識アノテーションサービス「アノラボ」リリース
                                                • 声をマウス代わりに使える!AI音声認識アプリ「AmiVoice VMG」リリース

                                                  アドバンスト・メディアは、AI音声認識AmiVoiceを活用した一般企業向けアプリケーションAmiVoice VMGをリリースしました。 このAIニュースのポイント AmiVoice VMGはマウスやキーボード操作を音声で代替する音声認識ソフト 前モデルではマウスが必要だった部分も音声で代替可能に プレゼンや商談などの際のパワーポイントや、エクセル・ワードでの利用を想定 株式会社アドバンスト・メディアは、AI音声認識AmiVoiceを活用した一般企業向けアプリケーション“声マウス”「AmiVoice VMG(アミボイス ブイエムジー)」をリリースしました。 AmiVoice VMGは、あらゆる企業のITアプリケーションやITサービスの利活用に携わる方に必要となるマウスやキーボード操作を適時、適所において音声で代替することで、効率化や快適化を提供する音声認識ソフトです。先にリリースした、一般

                                                    声をマウス代わりに使える!AI音声認識アプリ「AmiVoice VMG」リリース
                                                  • 音声認識AI搭載マウス「TESS GIFT AI ライティングマウス」

                                                    株式会社LEAGUEは、音声認識AI搭載マウス「TESS GIFT AI ライティングマウス」を発売した。 音声認識AIが1分間に400単語もの音声を自動認識しあなたの代わりにタイピングしてくれます。 メール、ワード、LINEなどソフト媒体を問わず使用可能なので思いついた時に素早く情報の記録ができます。 認識したい言語は選択が可能なので、英語やフランス語、中国語といった外国語も瞬時にテキスト化してくれます。 アプリ上で言語を選択してマイクに話すだけで翻訳された状態でタイピングをしてくれます。 115言語対応なので、オンライン会議やSNSでの海外との会話も、自動翻訳で母国語にテキスト化することで意思疎通がスムーズ。 音声検索ボタンを押して調べたい内容をマイクに向かって話しかけるだけで自動で検索し、すぐに検索結果が表示されるので検索サイトを立ち上げる必要が無く、作業効率が大幅UPします。

                                                      音声認識AI搭載マウス「TESS GIFT AI ライティングマウス」
                                                    • Nintendo Switch向け体験型英会話学習ゲーム『ベティア ペラペラ英語アドベンチャー』発表。音声認識により、実際に喋って英語を学ぶ - AUTOMATON

                                                      ホーム ニュース Nintendo Switch向け体験型英会話学習ゲーム『ベティア ペラペラ英語アドベンチャー』発表。音声認識により、実際に喋って英語を学ぶ 株式会社でらゲーは12月15日、体験型英会話学習ゲームソフト『ベティア ペラペラ英語アドベンチャー』を発表した。対応プラットフォームはNintendo Switchで、2022年春発売予定。 本作は、遊びながら英語を自然に学べる学習ゲームだ。プレイするにはUSB接続のマイク・ヘッドセットが必要。音声認識機能を利用するためであり、「音声認識による体験型英会話学習ゲーム」としては、Nintendo Switchで初めての作品になるという。 『ベティア ペラペラ英語アドベンチャー』の舞台となるのは、ベティアと呼ばれる世界。たくさんの人々が平和に暮らしており、この世界はみんなの楽しい「英会話」から生まれるエネルギーでできている。しかしある日

                                                        Nintendo Switch向け体験型英会話学習ゲーム『ベティア ペラペラ英語アドベンチャー』発表。音声認識により、実際に喋って英語を学ぶ - AUTOMATON
                                                      • 計算量を抑えながら長時間の録音にも対応できる音声認識手法の提案

                                                        ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、ヤフーの音声認識エンジン「YJVOICE」の研究開発を担当している藤田です。 今回のブログでは、ヤフーにおける音声認識技術の研究開発の最新の取り組みを紹介します。具体的には、前回のブログでご紹介した新しい音声認識処理を、長時間の録音にも対応可能にした研究をご紹介いたします。長時間録音に対応するためには音声区間検出という処理が必要になるのですが、1つのモデルで音声区間検出と音声認識を処理可能な手法を提案し、従来法に比べて高い精度を短い処理時間で実現しました。なお、この研究は難関国際会議INTERSPEECH 2021に投稿し、採択されました。論文はこちらで公開されていますので、詳細が気になる方はぜひご覧ください。 Non

                                                          計算量を抑えながら長時間の録音にも対応できる音声認識手法の提案
                                                        • ロボットとの途切れない会話をどう実現するか? 音声認識不足を補う「複数体で連携して人と話すロボット」石黒共生HRIプロジェクト - ロボスタ ロボスタ - ロボット情報WEBマガジン

                                                          ロボスタ読者の皆さんは、複数体のロボットを相手に会話をした経験があるでしょうか。 現状ではまだ、ロボットとの会話に対して良い印象を持っている人は多くはないだろう。むしろ、経験した人の中には「会話が続かない」「同じ回答ばかり返される」「話しかけても無視された」など、ネガティブな意見も多く見られ、技術的にも音声認識や会話技術はまだ発展途上であることは明らかだ。 一方、将来的にロボットが社会に溶け込んでいくためには、ロボットの会話技術の向上は必要不可欠。それは、人間が質問した内容に対してロボットが正確に回答を返す、という実質的な回答精度の向上だけでなく、人間がロボットとの会話を違和感なく行えるようにしたり、人がロボットとの会話が快適だと感じられるいろいろな仕掛けの研究も大切となってくる。 そのひとつの手法が複数体のロボットによる会話。 以前、会話ロボットについて誰かを取材したときに「1対1で話し

                                                            ロボットとの途切れない会話をどう実現するか? 音声認識不足を補う「複数体で連携して人と話すロボット」石黒共生HRIプロジェクト - ロボスタ ロボスタ - ロボット情報WEBマガジン
                                                          • 音声認識の勢力図が変わる!?GoogleとMicrosoftの音声認識APIの比較 | DIGITAL | オペレーションを進化させる現場のWebマガジン 現場ドリブン

                                                            (まもなく2月ですが)新年あけましておめでとうございます。本年も現場ドリブンをよろしくお願い致します。 さて、当社が提供させていただいている、音声認識を搭載したクラウド型IP-PBX:Omnia LINK(オムニアリンク)は、まさに音声認識の勢力図を変えるのではないかという、Microsoft社のAzure(以下、「Azure」)のエンジンを搭載しました。Omnia LINK(オムニアリンク)は、元々、Google社のGoogle Cloud Platform (以下、「GCP」)のSpeech to TextのAPIを採用していました。 「GCP」と「Azure」の音声認識API:Speech の両方を搭載することとなりましたが、この両エンジンはそれぞれ一長一短があり、なかなか甲乙つけ難い実力を発揮してくれており、今回はこの音声認識エンジンの特徴や違いについてご紹介していきたいと思います

                                                              音声認識の勢力図が変わる!?GoogleとMicrosoftの音声認識APIの比較 | DIGITAL | オペレーションを進化させる現場のWebマガジン 現場ドリブン