並び順

ブックマーク数

期間指定

  • から
  • まで

401 - 440 件 / 1291件

新着順 人気順

音声認識の検索結果401 - 440 件 / 1291件

  • 動画見放題!新型「Fire TV Stick」は音声認識リモコンが優秀です! | &GP

      動画見放題!新型「Fire TV Stick」は音声認識リモコンが優秀です! | &GP
    • 機械学習は楽しい Part 6: ディープラーニングでの音声認識 (翻訳) - Qiita

      この記事は、「Machine Learning is Fun Part 6: How to do Speech Recognition with Deep Learning」(medium.com)の翻訳です。 音声認識はスマホやゲームコンソール、スマートウォッチなど、日常に浸透してきています。ホームオートメーションにも欠かせません。$50でAmazon Echo Dotを買えば、ピザを注文したり、天気予報を聞いたり、ゴミ袋を注文したり、大声で呼びさえすればいいのです。 Echo Dotはとても人気で、ホリデーシーズンにはAmazonが在庫を切らしたほどです。 しかし音声認識が出てきてもう数十年、今何故主流になったのでしょう? それはディープラーニングによって音声認識が十分な制度に到達し、配慮された環境外でも実用的になったからです。 Andrew Ngは音声認識の精度が95%から99%に到

        機械学習は楽しい Part 6: ディープラーニングでの音声認識 (翻訳) - Qiita
      • 音声認識を用いた学会講演における情報保障(字幕付与)の試験運用を開始しました。(2015年8月22日)

        本学で研究開発されてきた音声認識システムを用いた字幕付与(情報保障)の試験運用を、情報処理学会のアクセシビリティ研究グループ(SIG-AAC)の発足に際して、聴覚障害者を対象として開始しました。講演者の音声を高い精度で文字化する音声認識システムの学会における継続的な運用は前例がなく、複数の熟練者による連係タイプ入力と比べて、大幅に低いコストで情報保障の提供が期待されます。 2016年度(平成28年度)から施行される障害者差別解消法では、障害者に「合理的配慮」を行うことが義務づけられています。大学等に在籍する障害学生数は年々増加しており、講義や学会等の講演会で情報保障を提供することが要請されています。聴覚障害者に対しては、要約筆記・字幕付与を行うことがこれに該当しますが、専門性の高い講演・講義の内容をリアルタイムに文字化できる人員(パソコン要約筆記者)は限られていて、各大学等ではその養成が課

          音声認識を用いた学会講演における情報保障(字幕付与)の試験運用を開始しました。(2015年8月22日)
        • 「Google Search」、音声認識を追加へ--自分の予定や写真も検索可能に

          この1年間を音声認識ツールの開発に費やしてきたGoogleは米国時間8月14日、「Google Now」における音声認識ツールを「Google Search」に追加することを発表した。 Google Searchに対し、Google Nowと同じような質問を投げかけることができるようになり、サービスのつながりがさらに強化される。5つの広範囲にわたるカテゴリに関するクエリによって、Searchにおいて「Gmail」「Google Calendar」「Google+」からの多くの情報にアクセスすることができる。カテゴリには、定期航空便情報、Google+からの写真、Google Calendarからのイベント情報、Gmailの発送通知からの購買データ、GmailとGoogle Calendarからのレストラン予約がある。 新たに音声検索が追加されたGoogle Searchは、デスクトップおよ

            「Google Search」、音声認識を追加へ--自分の予定や写真も検索可能に
          • 音声認識でカルテ入力時間を7割減、石川記念会HITO病院:医療:日経デジタルヘルス

            「働き手の減少など地方の病院は多くの課題を抱えている」――。2018年10月4日に都内で開催した記者会見で、理事長の石川賀代氏は地方病院の置かれた苦しい現状を説明した。課題解決に向けて、業務用SNSの導入や医師へのタブレット端末の配布など「未来創出HITOプロジェクト」と名付けた業務効率化の取り組みを進めてきた。

              音声認識でカルテ入力時間を7割減、石川記念会HITO病院:医療:日経デジタルヘルス
            • Chrome 34ベータにハンズフリー「OK Google」音声認識を追加 ~監視対象ユーザーのインポートも可能に

              • フリーソフトの音声認識エンジンを使ってみたい人のための本。 - IHARA Note

                本の紹介をする。 フリーソフトでつくる音声認識システム パターン認識・機械学習の初歩から対話システムまで 作者: 荒木雅弘出版社/メーカー: 森北出版発売日: 2007/10/01メディア: 単行本(ソフトカバー)購入: 45人 クリック: 519回この商品を含むブログ (39件) を見る 本書は15章からなっているが、フリーソフトを手っ取り早く使ってみたい人、特に、音声認識の現段階の性能を手っ取り早く知りたい人は、12章から読み始めればよい。インストールの仕方などはさすがに詳しくは載っていないが、使い方はかなり詳しく書かれている。 画像やら音声やらその他の数値データから「それは何か」を推定する技術を「パターン認識」と呼ぶ。上記の本の前半では、(パターン認識の下位分野の)音声認識を例にとって、パターン認識の理論が説明されている。特にパターン認識の「学習理論(いかにパラメータをうまく定めるか

                  フリーソフトの音声認識エンジンを使ってみたい人のための本。 - IHARA Note
                • Juliusによる音声認識 | Raspberry Pi 研究室 | Feijoa.jp

                  ご購入 もう少々お待ち下さい。 ダウンロード version 1.5 から、IPアドレス制限が無くなり、ライセンス制になりました。ライセンスされていない場合、起動後30時間後に自動的に HAL を終了します。 体験版のインストーラー・スクリプトをダウンロード インストーラー・スクリプト SHA-1: dd2a390b4f0f8c15301eaee23cd92bd5e831da91 ※インストール方法については ソケットサーバー「HAL」の概要 (version 2.0対応版)~導入方法 を御覧ください。 体験版パッケージ HAL_trial_2_0.tar.gz version 2.0 SHA-1: ce31802a5b423a9b0d73721a3d43e0585b009a6f 試用期限 2017/1/31 まで イントロダクション 「Julius」は、日本の大学やIPAによって開発され

                  • 音声認識ソフトの新版、アドバンスト・メディアが発表

                    新機能「書き起こしエディター」の画面。ICレコーダーなどで録音した音声ファイルを読み込み、自動で文字を入力する。誤入力があった場合は手入力で修正できる アドバンスト・メディアは2012年11月2日、音声認識ソフトの新版「AmiVoice SP2」を発表した。11月30日から大手家電量販店や、オンラインショッピングサイトAmazon.co.jpなどで販売するほか、同社の直販サイトでダウンロード販売も行う。 AmiVoice SP2は、パソコンに接続したマイクに向かって話すと、リアルタイムで文字を入力できる音声認識ソフト。利用者の声を登録する手間が不要なのが特徴だ。繰り返し使うと認識精度が上がる学習機能も備えている。 AmiVoice SP2は、従来品と比べて辞書の語彙が約5倍に増え、音声認識率が向上。「テザリング」「iPS細胞」といった最新用語も認識できるようになった。 新たに加わったのは「

                      音声認識ソフトの新版、アドバンスト・メディアが発表
                    • au、高精度な音声認識機能を実用化、話すだけで検索できる「声de入力」 | 家電 | マイコミジャーナル

                      KDDI、沖縄セルラーは、携帯電話向けの高度な音声認識を商用化、歩行者ナビゲーションサービス「EZナビウォーク」で2月上旬からサービスを提供する。au携帯電話に分散型音声認識機能を搭載、サーバと連携することで高精度な音声認識を実現した。同時に、サービス対応端末3モデルも発表されている。 話して乗換検索 今回搭載されたのは音声認識サービス「声de入力」。採用された分散型音声認識機能は、端末とサーバに音声認識機能を分散して配置し、端末側ではユーザーの発生した音声の特徴情報を抽出してサーバに送信、サーバ側で音声認識処理を行う、というもの。 声de入力の仕組み。端末とサーバで分散して処理を行う 従来の音声通話型と端末内蔵型にはそれぞれ欠点があった。音声通話型は通話料が必要で、UIも今ひとつ。内蔵型は、端末のCPUやメモリ、辞書サイズなどの能力面に難点があった。今回の分散処理型では、端末側にはそれほ

                      • 音声認識分野における深層学習技術の研究動向

                        • Speech API - 音声認識  |  Google Cloud Platform

                          Try Gemini 1.5 models, our newest multimodal models in Vertex AI, and see what you can build with a 1M token context window Convert audio into text transcriptions and integrate speech recognition into applications with easy-to-use APIs. Get up to 60 minutes for transcribing and analyzing audio free per month.* New customers also get up to $300 in free credits to try Speech-to-Text and other Google

                            Speech API - 音声認識  |  Google Cloud Platform
                          • Baiduが音声認識でGoogleを抜く、中国が人工知能で覇権を狙う

                            Baidu(百度、バイドゥ)は中国最大の検索企業であるが、人工知能でも研究開発を加速している。人工知能ではGoogleがトップを走っているが、音声認識ではBaiduが首位の座を奪った。画像認識の研究も進めている。BaiduはBMWと提携し、自動運転車を公道で走らせる。Baiduは中国のGoogleとして、人工知能で世界の覇権を狙う。 Baiduシリコンバレー研究所 Baiduの人工知能研究では、「Baidu Research」が中心的な役割を担う。これは同社の研究所で、人工知能第一人者Andrew Ng(イング)が指揮を取る。Ngは、Googleで人間の頭脳を模したプロジェクト「Google Brain」を立ち上げた。大規模な並列計算環境のもとでDeep Learning(深層学習)の手法を用いて、システムがハイレベルな概念(例えばネコ)を学習できることを実証した。 Baidu Resea

                              Baiduが音声認識でGoogleを抜く、中国が人工知能で覇権を狙う
                            • Google Cloud Speech APIのリアルタイム音声認識は使い物になる精度なのか?

                              はじめに 今までコールセンターへの音声認識システムの導入とかに携わってきました。 音声認識の方式には大きく2種類あります。 バッチ型 音声ファイルを渡すと認識した結果が返ってくる コールセンターの通話録音をテキスト化してビッグデータ分析とかで活用できる Youtube動画の自動字幕とかでも使われている。 リアルタイム型(またはストリーミング型) 喋っている音声がリアルタイムで認識されていく。 コールセンターのスーパーバイザが複数のオペレータの音声をモニタリングしたりする場合に活用できる 最近だとAbemaTVで記者会見の生中継とかでAIポンが使われている で、クラウド型の音声認識APIに関しては以下が4強と言われています。 Google Cloud Speech API Microsoft Azure Bing Speech API IBM Watson Speech to Text Am

                                Google Cloud Speech APIのリアルタイム音声認識は使い物になる精度なのか?
                              • アップルが音声認識関連技術会社との間にヒビ? iPhone 5でSiriの行方はどうなる?

                                アップルが音声認識関連技術会社との間にヒビ? iPhone 5でSiriの行方はどうなる?2012.09.10 13:00 そうこ 衝撃のデビューは何だったのか、Siriの人気はどこへやら...。 アップルのSiri技術に深く関わっていた会社Audience。Audienceは、EarSmart技術の開発を行っており、これはSiriのコア部分に関わってくるもの。が、この会社が、次世代iPhoneでアップルはうちのシステムを使いそうはない、とコメントしました。 Audienceはアップルが使用しているA5プロセッサの開発を一部手伝っており、この一部には背後の雑音等を消すためのデジタルシグナルプロセッサが含まれています。もちろん、これはSiriの動作向上のために必要な技術。が、どうやらアップルはAudienceの助けはもういらないと言っているようで...。9月6日の夜にAudienceが出した

                                  アップルが音声認識関連技術会社との間にヒビ? iPhone 5でSiriの行方はどうなる?
                                • 音声認識ソフトで英語学習するのだ

                                  “英語の学習”というと、それこそ数限りなく方法があって、人によってお勧めするものも違います。ただし1つだけいえるのは、どの方法も継続してはじめて実を結ぶということ。続けられる方法から、変わった学習法まで、実践してきた2人が語ります。 Biz.ID 大橋さん、佐々木さん。英語の勉強がどうも長続きしません。どうしたら勉強を継続して続けることができるでしょうか? 佐々木 とりあえず、ペースメーカーを自分の外側に用意するのがいいと思います。自分でペースを作ると、どうしても欲張ってしまうので、ちょっとスケジュールや体調が厳しくなっただけで続かなくなることになりがちだからです。 Biz.ID ペースメーカーというと、例えばどんなものなのでしょう? 佐々木 無料のオンラインツールでもいいし、ラジオ講座のようなものでもいいです。でも、たやすく続けられるという意味で、NHKのテレビ外国語講座などの方がいいか

                                    音声認識ソフトで英語学習するのだ
                                  • AI音声認識APIを提供する開発プラットフォームを一般公開

                                    アドバンスト・メディアは2019年12月3日、音声認識APIを提供する開発プラットフォーム「AmiVoice Cloud Platform(アミボイス・クラウド・プラットフォーム)」の一般公開を開始した。第1弾として汎用エンジンを公開、リアルタイム版とバッチ版のAI(人工知能)音声認識APIをラインアップしている。 AmiVoiceは、日本語に強い音声認識エンジンで、最新の深層学習技術を実装。今回、APIとして提供することで、音声文字化や音声対話、音声制御、音声翻訳などを行うアプリケーションやWebサイトといったサービスに音声認識APIを簡単に組み込めるようになる。 リアルタイム認識(WebSocket対応API)とバッチ認識(HTTP対応API)を用意。リアルタイム認識は、HTML5でマイク音声が取得可能なWebブラウザなどで、サーバ型リアルタイム処理ができる。バッチ認識は、音声を一括処

                                      AI音声認識APIを提供する開発プラットフォームを一般公開
                                    • Kinect for Windows SDK beta で遊んでみた 〜 Kinectで音声認識した英語を日本語に翻訳する 〜 #shibuya_ni - Natural Software

                                      最近KinectでSpeechを使った音声認識の情報がぽろぽろ出始めたので少しやってみました。 Speechサンプルの動作に必要なファイル Speech サンプル (x86 のみ)を動作させるには、次の3つをインストールする必要があります。これらをインストールしてSpeechサンプルが動作すること(red,blue,greenの声を認識すること)を確認してください。 Microsoft Speech Platform - Server Runtime, バージョン 10.2 (x86 エディション)(英語) Microsoft Speech Platform - Software Development Kit, バージョン 10.2 (x86 エディション)(英語) Kinect for Windows Runtime Language Pack, バージョン 0.9(Kinect fo

                                        Kinect for Windows SDK beta で遊んでみた 〜 Kinectで音声認識した英語を日本語に翻訳する 〜 #shibuya_ni - Natural Software
                                      • iPhone向け音声認識電子辞書アプリ「Speeek!」

                                        BBソフトサービスは、iPhone 3G向けの音声認識対応電子辞書アプリ「Speeek!」の提供を開始した。AppStoreにて配信され、価格は1800円。 「Speeek!」は、伝えたい内容をiPhone 3Gに話しかけると、その音声を認識して、英語および中国語に翻訳して発生する電子辞書アプリ。音声認識後、候補の言葉が表示され選択すると該当の言葉を発声する。「空港・飛行機にて」「ホテル」「レスト欄」「移動」「観光」「基本会話」「アプローチ」「トラブル」の8つのシーンに対応する1500語のフレーズを内蔵している。また、話しかけた相手の回答に関しても候補が表示され、相手に選んでもらえる。 音声認識にはニュアンスコミュニケーションズのVoCon 3200を採用する。アプリは日本語から英語に翻訳するアプリと、日本語から中国に翻訳するソフトの2種類が用意される。なお、今回のアプリは携帯向け製品の統

                                        • キーボード不要!音声認識でパソコンを操作する方法 | エンジョイ!マガジン

                                          「音声認識」って使ったことありますか? Windows 7などに標準搭載されているこの機能が一体どんなものなのか。メール入力からシャットダウンまで、実際試した結果をレポートします! キーボード入力が苦手なので長文を打つのが大変! もっと簡単に入力できる方法はないかなぁ。・・・そう思ったことはありませんか? そんな方におすすめの機能。それは、音声認識です! キーボードを使わなくとも、マイクに向かって言葉を発すれば、その言葉が入力され、「起動」「スクロール」などの操作も、音声で行うことができます。 しかもこの機能、Windows Vista や Windows 7 に標準装備されているのです。つまり、あとはマイクを用意すればチャレンジ可能! というわけで、音声認識の基本的な手順から使い方のコツまで、初めて使ってみた感想をまじえつつ、リポートいたします! ※ここではWindows 7の例で説明し

                                            キーボード不要!音声認識でパソコンを操作する方法 | エンジョイ!マガジン
                                          • トヨタが「会話するクルマ」 触れずに道順や店案内 音声認識活用、ナビとスマホ連動 - 日本経済新聞

                                            トヨタ自動車は18日、自動車向けの情報サービスを刷新すると発表した。音声認識技術を全面採用。画面を一切触らずに経路をはじめあらゆる情報を検索でき、運転しながら会話をする感覚で使える。自動車向けの情報サービスはスマートフォン(スマホ)大手の米アップルなどが始める予定。トヨタは自社のサービスを改良することで、スマホ世代の若い顧客のつなぎ留めを狙う。トヨタは2002年、車向けに経路検索や交通情報など

                                              トヨタが「会話するクルマ」 触れずに道順や店案内 音声認識活用、ナビとスマホ連動 - 日本経済新聞
                                            • スマホの音声認識、米国ユーザーの70%が満足、テキスト入力が3倍速いとの調査結果も ::SEM R (#SEMR)

                                              スマホの音声認識、米国ユーザーの70%が満足、テキスト入力が3倍速いとの調査結果も 米調査会社 Parks Associates による米国ユーザーの音声認識ソフトウェアの満足度に関する調査。約70%のユーザーは Apple Siri や Google Now、Microsoft Cortana といった音声認識に満足と回答。 公開日時:2016年10月26日 18:00 米調査会社パークス・アソシエイツは2016年10月20日、米国ユーザーの音声認識ソフトの利用状況についての調査結果を発表した。 音声認識ソフトの利用者数と満足度 Apple Siri、Google Now、Microsoft Cortana、Amazon Echo といった音声認識技術を搭載したプラットフォームやサービスが普及してきているなか、米国の1万人のユーザーを対象に同ソフトの利用について調査した。40%のユーザー

                                                スマホの音声認識、米国ユーザーの70%が満足、テキスト入力が3倍速いとの調査結果も ::SEM R (#SEMR)
                                              • Juliusで音声認識サーバを立てて,wavファイルをPOST送信して認識する - Qiita

                                                音声認識を手軽に使いたい!という方必見. googleの音声認識WebAPIのように使える音声認識サーバを立ち上げよう! Juliusサーバに,音声ファイルをPOST送信することで,音声認識結果が返ってくるという,サーバの構築方法を以下に記載します. Pepperで音声認識させる場合,元から入っている音声認識ソフトウェアだと,音声認識させたい単語をChoregrapheなどで予め入れておく必要があり,なんでも認識できるというわけではありません(Qiitaの記事:Pepperは人間が喋った任意の言葉を認識できるか?). (できるかもしれないけど,面倒くさい) そこで,Pepperアプリ開発者がたどり着くのが,google音声認識です.Pepperのマイクからの音を録音して,googleに音をPOST送信して,結果を受け取るものです.認識できる言葉は多いし,認識精度も良いのですが,結果が返って

                                                  Juliusで音声認識サーバを立てて,wavファイルをPOST送信して認識する - Qiita
                                                • これは革命だ! 音声認識で動くラジコンヘリ (1/3)

                                                  ここのところトイラジコンの世界でブームになっているのが、室内で遊ぶヘリコプターのラジコン(RC)だ。 本物(?)のラジコンヘリは、それなりに飛ばせるようになるため3台墜落させるとか、100万円かかるとか、ともかく金銭的にセレブな趣味だったりするが、それ以上に飛ばす場所も限られており、公園で気軽に遊ぶというわけにもいかない。 そのため、昔から室内で遊べる小型の電動ヘリが次々に登場するものの、機体を浮かせるためには、それなりにパワーが必要で、当然壁なんかにぶつかって墜落するとローターの羽などが、ポキポキ折れてしまう。交換部品は安いとはいえ、トイラジコンのスペアパーツはブームが過ぎ去ると交換部品の入手がすぐに困難になり、数度飛ばして押入れの肥やし、なんて人も多いかもしれない。さらにフライト時間の短さや、電池やバッテリーの寿命なども決して経済的とは言えなかった。

                                                    これは革命だ! 音声認識で動くラジコンヘリ (1/3)
                                                  • 画像認識や音声認識、APIで“いいとこ取り”できる時代に――ハンズラボ・長谷川社長

                                                    画像認識や音声認識、APIで“いいとこ取り”できる時代に――ハンズラボ・長谷川社長:特集「Connect 2018」 基幹システムのフルクラウド化という“大仕事”が終わったハンズラボ。次なる目標は、画像や音声認識を取り入れることだという。APIを使って気軽にシステムが組める今、長谷川社長は「システムを“選ぶ”必要性がなくなった」と話す。 ――2017年は、ハンズラボにとってどんな1年でしたか? 長谷川社長: 東急ハンズの仕事という意味では、やはり基幹系システムのクラウド移行が大きかったですね。移行期間中は運用も大変ですし、データも二重で流れるので不具合も起きやすかったりするんですが、そういうトラブルもなく終えられたので、ホッとしています。厳密にはまだ2台ほど残っているのですが、それもそのうちクラウドへと移行できるでしょう。 もう1つはIC型のクレジットカードに対応したところでしょうか。実は

                                                      画像認識や音声認識、APIで“いいとこ取り”できる時代に――ハンズラボ・長谷川社長
                                                    • 「応答速度」「演算量の多さ」「カスタマイズの難しさ」 End-to-End音声認識のプロダクト化でハードルになる3つの課題

                                                      東京における音声・音響・信号処理に関するエンジニア・研究者のためのミートアップ「Tokyo BISH Bash」。第3回は、世界中で音響に関する普及・啓蒙を目的として国際音響学会が提唱するイベント「International Year of Sound 2020(IYS2020)」と協力し、日本音響学会電気音響研究会との共催で開催されました。 そこでLINEのSpeech Teamにいる木田祐介氏が、LINEで開発されている音声認識のプロダクトについてそのしくみとプロダクト化への歩みについて紹介しました。後半はEnd-to-End音声認識をプロダクト化するにあたっての課題について。関連資料はこちら。 応答速度が遅い理由 次にプロダクト化に向けての課題と取り組みについて話します。こちらは、僕が考えるプロダクト化の阻害要因を挙げています。1つが応答速度が遅い、1つが演算量が多い、1つはカスタマ

                                                        「応答速度」「演算量の多さ」「カスタマイズの難しさ」 End-to-End音声認識のプロダクト化でハードルになる3つの課題
                                                      • 音声認識技術の進化が世界を変える - Nuanceの挑戦

                                                        「先日いただいたべったら漬け、あなたの温もりがこもっていた、あなたの愛がこもっていた、まる」。この文言ではじまるSMAPの香取慎吾氏を起用したCMが公開されたのが今から16年前となる1998年。これはいったい何かというと、IBMのデスクトップPC「Aptiva」を用いて、音声入力ソフト「ViaVoice」でメールを作成している様子をCMとしたものだ。30代以上の読者の方には、頭の片隅にそんなものがあったなぁ、という記憶をお持ちのかたもいると思う。 しかし、その当時、音声入力はそれなりの盛り上がりを見せたものの、その後、長い間、研究開発は継続されていたものの、あまり陽の当たる場所で話題に上ることはなかった。だが、時代は移りAppleが2011年に音声入力アプリ「Siri」をiOSに搭載したことで、再び音声入力が脚光を浴びるようになった。そして、MicrosoftもSiriに対抗し、Windo

                                                          音声認識技術の進化が世界を変える - Nuanceの挑戦
                                                        • グダグダ会議をAI・音声認識で撲滅すべく、議事録クラウドサービス「AmiVoice SMM」に大幅な機能追加

                                                            グダグダ会議をAI・音声認識で撲滅すべく、議事録クラウドサービス「AmiVoice SMM」に大幅な機能追加 
                                                          • 話した言葉をその場で表示――米ベンチャー、携帯向け音声認識技術をβ公開

                                                            米vlingoは8月21日、携帯電話向けの音声認識インタフェースを発表した。まず、地域情報検索用のアプリケーション「vlingo FIND」を、Sprintの携帯サービス利用者にβ公開している。 従来の音声認識技術では、認識できる単語が限られていたり、ユーザー側で話し方を変える必要があったりしたが、vlingoでは、ユーザーが自然に話した言葉をそのまま認識できるのが特徴で、発声した文章が、そのままテキストボックスに表示される。音声入力とキーパッド入力の併用も可能。学習効果があるため、利用が増えるほど精度が向上するという。 同技術は、大多数の3Gネットワークやマルチメディア携帯に対応可能だという。vlingoでは、地域情報検索のほか、テキストメッセージの入力やWeb検索など、さまざまな用途への応用を視野に入れている。 vlingoは、米SpeechWorks(現Nuance)の共同創業者マイ

                                                              話した言葉をその場で表示――米ベンチャー、携帯向け音声認識技術をβ公開
                                                            • au、「EZナビウォーク」に音声認識の検索機能

                                                              KDDIと沖縄セルラーは、auの携帯電話に、音声認識技術を活用した新機能「声de入力」を搭載すると発表した。2月上旬からは、EZナビウォークの検索機能として「声で乗換検索」「声で目的地検索」という新機能が用意される。 「声de入力」には、サーバーと携帯電話の両方に音声認識機能を備え、処理を分散させるという“分散型音声認識機能”が活用されている。EZナビウォークでは、鉄道の乗り換え経路や目的地を調べる場合に「東京から大阪まで、10分後に出発」「東京都千代田区三番町」などと喋るだけで、ナビゲーション機能が利用できるようになる。分散型音声認識の「声de入力」で目的地検索をする場合、携帯電話本体では、ユーザーが喋ってた内容をまず録音し、その内容から「とうきょう」「おおさか」「10分後」と検索条件になる語彙を抽出するところまで処理される。 抜き出されたデータは、パケット通信でサーバー側に送信され、サ

                                                              • Unity初心者がJuliusで音声認識してみた! Ver1.4

                                                                Unityで音声認識したくなり色々調査してみた。とりあえず自分なりに調べた方法まとめ Google先生からwebsocket経由で音声認識の結果を取得Windowsの場合microsoft speech platformを使う方法Macの場合内部にある音声認識機能を使う方法インテルのPerC SDKを使う方法大語彙連続音声認識エンジンJuliusを使う方法1はUnity5になってWebGLが使える様になれば需要が上がりそうだけど今回はパス、2はwindows専用にしたくないからパス、3はそもそも持ってないからこれもパス、4はtwitter上の人が挑戦してたみたいだけど次の5番目をやりきった後で知ったから次はこれをやってみたい。そして最後の5はオープンソースでC/C++言語で実装されてるということでC言語ならやったことあるし採用。 しかし、その軽い気持ちで手を出したことが後々大変なことに繋が

                                                                • とても易しい音声認識の紹介書。 - IHARA Note

                                                                  これまでにも色々と音声工学関連の本を紹介してきたが、おそらくこれが最も易しい。 人と対話するコンピュータを創っています 音声認識の最前線 作者: 古井貞熙出版社/メーカー: 角川学芸出版発売日: 2009/02/27メディア: 単行本購入: 7人 クリック: 69回この商品を含むブログ (8件) を見る 著者の古井先生は音声工学に携わる日本人ならば知らない人はいないほどの高名な研究者で、本の帯に「音声認識研究の第一人者」とあるがそれは誇張表現ではない。古井先生は難しい本も出しているのだが、これは難易度としてはものすごく容易で、分かりやすさからいえばブルーバックスと同程度だと思う。数式はほとんど出てこない。その反面、というか当然のことながら、読んでも何かができるというわけではない。そのあたりが入門書や専門書とは違うところである。内容的な信頼性はかなり高い。 この本は、数学が苦手だけれど音声認

                                                                    とても易しい音声認識の紹介書。 - IHARA Note
                                                                  • 音声認識で文字入力できる「Speakey(スピーキィ)」などのアプリをNTTドコモが無償で試験提供開始

                                                                    スマートフォンに話しかけるだけでメールなどの文字入力が可能な「Speakey(スピーキィ)」やインターネット検索や端末機能の呼び出しができるアプリ「VOICE IT!(ヴォイス イット)」の試験提供を無償で行うことをNTTドコモが発表しました。 学習機能なども備えており、キー入力が面倒な時などに活躍してくれそうなアプリとなっています。 報道発表資料 : 音声認識技術を利用したサービスのトライアル提供開始 | お知らせ | NTTドコモ NTTドコモの報道発表資料によると、スマートフォンに話しかけることで音声認識によりメールなどの文字入力ができるアプリ「Speakey」、インターネット検索や端末機能の呼び出しができるアプリ「VOICE IT!」を、それぞれオムロンソフトウェア、ブリリアントサービスと共同で開発したそうです。 「Speakey」はスマートフォンに話しかけることで、音声認識により

                                                                      音声認識で文字入力できる「Speakey(スピーキィ)」などのアプリをNTTドコモが無償で試験提供開始
                                                                    • Xbox Oneが間もなくAlexaやGoogleアシスタントなどの音声認識機能に対応

                                                                      by Rohit Choudhari Microsoftが開発する据置型ゲーム機のXbox Oneが、間もなく音声認識機能のAlexaおよびGoogleアシスタントをサポートすると報じられています。 It looks like Amazon Alexa and Google Assistant are coming to Xbox One | Windows Central https://www.windowscentral.com/amazon-alexa-and-google-assistant-are-coming-xbox-one The Xbox One will reportedly soon support Alexa and Google Assistant - The Verge https://www.theverge.com/2018/6/3/17422552/mi

                                                                        Xbox Oneが間もなくAlexaやGoogleアシスタントなどの音声認識機能に対応
                                                                      • Voice Rep 3 / Voice Rep PRO 3 -高性能音声認識ソフト- | GING

                                                                        音声認識ソフトは値段が高い! しかも認識精度が事前にわからないので買いにくい・・・ そんな方のご要望にお応えしまして、事前に音声認識の精度を確認できるホームページを用意いたしました。マイクなど事前に準備する作業もありますので、詳しくは以下のホームページをご覧ください。 本ソフトではGoogle社の音声認識エンジンを採用しているため、音声認識の際には必ず「Google Chrome」を同時に起動しておく必要があります。前バージョンまでは、Google Chromeでの音声認識結果をその都度「Voice Rep」のエディタに転送する必要がありました。 今回の新バージョンでは、Google Chrome上で音声認識した結果をリアルタイムでVoice Rep上に転送できるようになりました。 ※音声認識「開始」を押すと、Google Chromeが自動で起動し、マイクから音声入力・認識が始まります

                                                                        • AmazonのAlexaスキルにおける音声認識のUXデザイン

                                                                          Indra Sofian氏は、UXPinのコンテンツ戦略家です。以前は、AT&Tのプロダクト開発で働いていました。 IoT(Internet of Things)は2010年代初頭に出現して以来、トレンドであり続けています。今や車からライト、家、冷蔵庫、そしてトースターに至るまで、すべてがインターネットに接続されています。 そんな流れの中、AmazonはEchoと呼ばれる音声認識が可能なワイヤレススピーカーをリリースしており、この製品はホームオートメーションのハブとなり、パーソナルアシスタントのような役割を果たします。 Amazon EchoとAlexaとは Amazon EchoはAmazonがリリースしたワイヤレススピーカーで、Alexaと呼ばれる人工知能を搭載しており、インターフェースがほぼ音声のみとなっている製品です。Alexaには、ユーザーの身の回りのタスクをこなすために様々なこ

                                                                            AmazonのAlexaスキルにおける音声認識のUXデザイン
                                                                          • Voice Rep Pro 4 - 高性能な音声認識ソフト【ベクターPCショップ】

                                                                            ※「優待アップグレード版」の対象製品は、『Voice Rep Pro 3』、もしくは『Voice Code PRO』の2製品になります。この2製品をお持ち出ない方は『製品版』をお買い求めください。 本ソフトは、「シンプルに使いやすく」をコンセプトに開発された高性能音声認識ソフトです。事前の音声登録無しで、買ったその日からすぐに使用することができます。 使い方はとてもシンプル。パソコンにマイクを接続してソフトを起動。あとは「開始」ボタンをクリックし、マイクに向かって話すだけでどんどん声を文字に変換してくれます。 また会議やセミナーなどの音声を録音し、その音声ファイルを取り込んで文字化する「文字起こし」も可能です。 さらに今回の新バージョンでは、オンライン会議の様子を録画して、その音声を「文字化」できるほか、キーボードだけで文字起こし作業を効率的に行えるよう「音声ファイル」の再生・停止などを任

                                                                            • Raspberry Pi上で音声認識環境を作ってみた - Qiita

                                                                              はじめに 最近は音声認識による家電操作などがCMでも流れている。 自分でもとりあえず音声認識してWebが操作できるものが作りたい! と思い立ち、作ってみた。 とはいえ、先人の人が既に作り方を公開していらっしゃるので そちらを参考に気が付いた点だけ補足していきます。 用意したもの 今回用意したものは以下のとおり RaspberryPi(Model A) SDカード(32GB) PLANEX GW-USNano2 Logitech, Inc. QuickCam Pro 4000 スピーカー microUSBケーブル USB AC電源アダプター miniUSBケーブル Web表示用PC 音声入力(USBマイク設定) 認識させるための音声を拾うために音声入力の設定をします。 こちらが参考になります。 Raspberry Piで音声認識 - 猫ぱーんち! Devel/電子工作/RaspberryPi

                                                                                Raspberry Pi上で音声認識環境を作ってみた - Qiita
                                                                              • 時刻tじゃない音声認識 - SuzukiMasayuki@Hatena::Diary

                                                                                去年の12月,古井先生が「なにかが足りない音声認識研究」というタイトルで発表をなさった. 現在までの音声認識研究を振り返った上で,「なにかが足りない,けどそれがなにかは知らない」という内容. かなり刺激的なお話だったので,各地からいろんな反響(例えばhttp://d.hatena.ne.jp/tihara/20091226)があった. 「なにが足りないのか?」にはいろんな答えがあると思う.答えは一つだけではないと思う. その上で,僕は 時刻tじゃない音声認識 が一つの答えになるのかなあ,と考えている. 以下,これまで行われてきた変化に着目した音声認識に関する研究を見ながら,自分なりの考えを書きたいと思う. デルタ特徴量関係 デルタ特徴量は,古井先生が提案された,今やデファクトスタンダードな特徴量. デルタ特徴量は,時系列の特徴量に対する回帰係数のことで, 具体的には時刻tのフレームの前後N

                                                                                  時刻tじゃない音声認識 - SuzukiMasayuki@Hatena::Diary
                                                                                • Nuance、音声認識ソフト「Dragon 11.5」とiOS向け無線マイクアプリをリリース

                                                                                  米Nuance Communicationsは米国時間2011年6月13日、パソコン向け音声認識ソフトウエアの最新版「Dragon NaturallySpeaking 11.5」を発表した。また同ソフトウエアの新機能と連動して米Appleのスマートフォン「iPhone」やタブレット端末「iPad」を無線マイクとして使えるようにするアプリケーション「Dragon Remote Mic App」も公開した。 Dragon NaturallySpeaking 11.5は、バージョン11で強化した音声テキスト化の正確性やスピードに加え、ドキュメント作成や電子メール送信、Webサーフィン、ソーシャルメディア利用などを簡素化するための機能を備える。SNSサイト「Facebook」へのステータス更新やミニブログサービス「Twitter」への投稿を「Post to Facebook」「Post to Tw

                                                                                    Nuance、音声認識ソフト「Dragon 11.5」とiOS向け無線マイクアプリをリリース