並び順

ブックマーク数

期間指定

  • から
  • まで

481 - 520 件 / 2710件

新着順 人気順

音声認識の検索結果481 - 520 件 / 2710件

  • iOSの音声認識でメールを書いたらとてもはかどることがわかった

    iOS 5.1 で追加された音声認識機能で最初の数日間遊んでみたけれども、その後あまり利用しなくなったという人も多いのではないでしょうか? しかし先日病気で倒れて、キーボードに向かうことができないので音声認識でメールを書いたとき以来、この機能を利用することでメールの下書きがとてもはかどることを発見してちょっとした楽しみになっています。 小さな工夫で、iOS の音声認識はかなり正確に文章を拾ってくれるようになりますし、意外な効果があってメールがはかどるようになったのです。我流ですが、コツとポイントについてまとめておきます。 音声認識のこつ なんども誤認識を繰り返して分かったのが、iOS の音声認識はマイクに口を近づけて、大きな声で発音しなければいけないということと、少しゆっくりめにしゃべった方が変換がうまくいくという点です。 上のマイクの画像でいうと、音声のバーが半分以下だと誤認識が混入する

      iOSの音声認識でメールを書いたらとてもはかどることがわかった
    • 「OK Google!」は録音されている。消す方法をご紹介します

      「OK Google!」は録音されている。消す方法をご紹介します2016.06.07 12:5030,130 渡邊徹則 OKじゃない人用に。 すでに頻繁に利用されるようになった、Googleの音声検索。「OK Google!」などではじまるアレです。でも実はあの声、録音されている場合があるって知っていました? 基本的に設定がオンになっている人だけですが、音声の解析や精度向上のためにあの「声」は録音され、Googleに保存されています。「そんなの、ちょっと気持ち悪い…」と感じる方のために、今回はそれを削除する方法をご紹介します。 とはいえ、やり方は簡単。こちらの音声アクティビティというページに移動し、今まで音声検索で発した言葉を削除すればOK。1つずつ消すのが面倒な場合は、「設定 > 削除オプション > 詳細設定 > 全期間」を選択して消しましょう。 もし今後は音声の記録を望まない場合、「設

        「OK Google!」は録音されている。消す方法をご紹介します
      • iPhone 4S は音声エージェント Siri 搭載、アプリ版は終了 -- Engadget Japanese

        Hands-on with the new iPad Pro M4: Absurdly thin and light, but the screen steals the show

          iPhone 4S は音声エージェント Siri 搭載、アプリ版は終了 -- Engadget Japanese
        • iTunesの楽曲をGoogle Homeで聴く方法

          読者の方々が利用している音楽ソフト・サービスで最も多いのは、恐らく「iTunes」ではないだろうか。iPod時代から含めて十数年、取り込んだ曲数や購入した楽曲の数を合計すると1万曲は優に超えているという人も、そう珍しくはないだろう。 現在は、クラウドにアップロードしたiTunesの楽曲を複数のデバイスで聴ける「iTunes Match」というサービスが有料で用意されている。Appleはこれ以外に「Apple Music」という音楽配信サービスを運営しており、関係性が少々ややこしいのだが(筆者もDRMの有無が違うこと以外に正確に説明できる自信がない)、いずれにせよ言えるのは、現在これらはGoogle Homeとは連携していないということだ。 Appleが年内に米国などで発売を予告しているSiri対応スマートスピーカー「HomePod」は、Apple Musicに最適化していることが大きな強み

            iTunesの楽曲をGoogle Homeで聴く方法
          • Google Home用アプリを作ったら、予想外な形でたくさん使ってもらえた - Qiita

            どうも。ひがし(Twitter:@m_higa4)です。 VUI(Voice User Interface)の未来に魅力を感じ、色々勉強中です。 さて、Google HomeやAmazon Echoが日本で発売されて以来、サードパーティ(GoogleやAmazon以外の会社)によるVUIアプリ(声を使って操作するアプリ)の開発がどんどん進んでいますね! 今日は自分がリリースしたアプリが、1週間どのように使われたかを共有することで、みなさんのアプリ企画に対する考えの幅を広げるきっかけになればと思っています。 一瞬だけど、ちょっとバズりました Google Home用アプリ(正確には「アクション」)である"運命のコイントス"をリリースしました。 レストランとかで何にしようか迷っていると、大体二択までは絞れるんですけど、そこから結構迷いません?(笑) そんな時に、このアプリを使えば、コイントスで

              Google Home用アプリを作ったら、予想外な形でたくさん使ってもらえた - Qiita
            • iPhone音声入力すごすぎて笑いが止まらなくなった - 週刊アスキー

              これほんとにすごい、アップルもっと騒いでもいいのに。 iOS 8から音声入力の精度がよくなっているという話を聞いて、本当かな〜と試してみたところ、本当に信じられないくらいのレベル。 速度はほぼリアルタイム、誤字は異様なほど少ない。あんまり精度が高いものだから「やっばい、これやっばい」と笑ってしまった。 使い方は入力用キーボードを出し、左下にあるマイクボタンを押してしゃべるだけ。入力時間は40秒ほどに限定されるが、フリック入力より断然早い。一度音声入力に慣れると、フリック入力の誤字が心底いやになる。 句点は「マル」、読点は「てん」、エクスクラメーションは「びっくりマーク」などで入力できる。「改行」というと改行してくれる。「開業医の先生」と言いたくても改行されるのは何なので、辞書登録できるといいなあ。 声に出して読んでみた ためしに『吾輩は猫である』冒頭を読む。 吾輩は猫である。名前はまだない

                iPhone音声入力すごすぎて笑いが止まらなくなった - 週刊アスキー
              • 万能秘書はどのサービス?――「Siri」「しゃべってコンシェル」「音声アシスト」を徹底比較

                万能秘書はどのサービス?――「Siri」「しゃべってコンシェル」「音声アシスト」を徹底比較(1/3 ページ) iPhoneの「Siri」が登場して以来、自然な言葉で質問や命令ができる音声認識アシスタントに注目が集まっている。Siri以上との評判も高いドコモの「しゃべってコンシェル」、ヤフーの「音声アシスト」を加え、3サービスについて利用方法や機能を比較してみた。 iPhoneの「Siri」が登場して以来、自然な言葉で話しかけることで、情報を確認したり端末の機能を利用できたりする音声認識アシスタントに注目が集まっている。以前から、話した言葉を認識し、それをテキストに置き換えたりアプリを起動したりするものはあるが、Siriを始めとした最近の人気サービスは、まるで端末の中に秘書かコンシェルジュがいるかのように、コミュニケーション能力を持つ点が特徴だ。 今回は、iPhoneのSiri、ドコモの「し

                  万能秘書はどのサービス?――「Siri」「しゃべってコンシェル」「音声アシスト」を徹底比較
                • Engadget | Technology News & Reviews

                  Parrots in captivity seem to enjoy video-chatting with their friends on Messenger

                    Engadget | Technology News & Reviews
                  • 【山田祥平のRe:config.sys】ねぇGoogle、歌って踊ってつぶやいて - PC Watch

                      【山田祥平のRe:config.sys】ねぇGoogle、歌って踊ってつぶやいて - PC Watch
                    • Webデザイナーが最低限気をつけるべき8つのアクセシビリティ

                      Webデザイナーや開発者は往々にして、自分たちの制作物に誰がアクセスして使うのかという点に関して無関心です。 使いやすさなどよりビジュアルが優先されることも多いですが、現代のクリエイターとして私たちは、より道徳的な観点を持ち、人それぞれの能力に併せたアクセシビリティを提供するべきです。 イギリスのアクセシビリティに関する法律に対する法的義務はさておき、イギリスには1,190万人以上の障害者がおり、その数は人口の19%に該当します。これはつまり、アクセシビリティが十分でないサイトに対して不満を持っている潜在ユーザーが、それくらい存在するということです。 どうして良いWebアクセシビリティが必要なのか ユーザーはWebサイトを使用するとき、どんなことを困難と感じるのでしょうか。アクセシビリティを語るにあたって、どういったものがあるかを見てみましょう。 聴覚系の障害 これは軽度なものから重度の聴

                        Webデザイナーが最低限気をつけるべき8つのアクセシビリティ
                      • 「OKグーグル」不要なGoogle Homeを外部サービスと自動連携するキット

                        「OKグーグル」不要なGoogle Homeを外部サービスと自動連携するキット Raspberry Piベースのシステム てとてとては1月11日、Google Home機能拡張キット「GHKit」を発売した。価格は1万800円から。 現状のGoogle Homeは「利用者が話しかけないかぎり、Google Home側から喋りかけてきたり、情報が提供されることはありません」と同社は指摘。GHKitは利用者の音声操作なしにGoogle Homeを活用する、Raspberry PIベースのIoT製品とする。 「IFTTT」や「myThings」といったif型のIoT簡易プログラミングサービスと連携し、Google Homeの自動動作が可能。例えばメールやTwitterなどの受信通知を流したり、カレンダーや気象情報などのオンラインデータと連携して、Google Homeに好みのメッセージでアラート

                          「OKグーグル」不要なGoogle Homeを外部サービスと自動連携するキット
                        • 音声認識がなんとかというメッセージが表示される:Word(ワード)の使い方

                          Wordで文書ファイルを保存をしようとしたときや、PCによっては作業をしている途中何分かごとに、意味のわかりにくいメッセージが表示されることがあります。 Word 2002の場合、 「録音された音声認識入力や、修正候補のようなデータなしで文書が保存されました。」 というメッセージ。 Word 2003なら、 「文書は保存されましたが、音声認識データを保存する十分な空き領域がないため、データは失われました。録音していないときは、必ずマイクをオフにし、ディスクで利用できる記憶域を確認してください。自動バックアップ機能が有効な場合には、上記のメッセージが数分毎に表示される場合があります。」 というメッセージです。 一体何のことを言っているのか非常にわかりにくいメッセージです。 そもそも音声認識なんて使ってないよと多くの方が感じるはずです。 Wordは、音声データなどの言語データも、ファイルを保存

                          • 【プレイバック2021】Google Pixel 6 Proの文字起こし機能だけで記事を書いてみた by 麻倉怜士

                              【プレイバック2021】Google Pixel 6 Proの文字起こし機能だけで記事を書いてみた by 麻倉怜士
                            • Alexaが聞いた会話内容は録音されAmazonの従業員によって解析されている

                              by Priscilla Du Preez スマートスピーカーのAmazon Echoなどに搭載されている音声認識アシスタント「Amazon Alexa」を巡っては、2018年12月に録音データが無関係な第三者に送信される事例が発覚していますが、新たにニュースサイト・Bloombergにより、Alexaが聞き取った音声データはAmazonの従業員により手動でタグ付けが行われているという事実が報じられました。 Is Anyone Listening to You on Alexa? A Global Team Reviews Audio - Bloomberg https://www.bloomberg.com/news/articles/2019-04-10/is-anyone-listening-to-you-on-alexa-a-global-team-reviews-audio Am

                                Alexaが聞いた会話内容は録音されAmazonの従業員によって解析されている
                              • Nexus Oneを使ってみた――軽快だが音声入力はいまいち

                                わたしはこの2日間、HTCが製造したスマートフォン「Nexus One」を使っている。その結果、市場に出回っているAndroid携帯の中ではダントツだという結論に至った。 わたしはGoogle本社で1月5日に開かれたNexus One発表イベントには出席しなかったが、Googleは親切にも貸出機を送ってくれた。 貸出機はT-Mobileのサービスに対応し、4GバイトのSDカードが付いている。開封とセットアップの写真をこちらのスライドショーで紹介している。 まず、手に持った感じはどうかというと、完ぺきだ。Nexus Oneはたった11.5ミリの薄さで、縦幅はたいていの筆記具よりも短い。 DROIDと比べてみると、DROIDがださく見える。DROIDが6オンス(170グラム)でNexus Oneが4.6オンス(130グラム)ということを考えればうなずける。 しかし、DROIDは少々角張っていて

                                  Nexus Oneを使ってみた――軽快だが音声入力はいまいち
                                • グーグル、音声で検索可能な「iPhone」アプリをまもなく発表へ

                                  Googleは米国時間11月14日、「iPhone」向けのモバイル検索アプリケーションのバージョン2をリリースする見込みだ。新しいバージョンでは、古いバージョンと同じように、「Safari」ウェブブラウザのモバイル版を開かずにGoogleで検索したり、連絡先を探したり、現在位置から検索結果を絞り込んだりすることができる。大きな変更点は、キーボードをまったく使わずに検索可能な音声検索が追加されたことだ。 Googleは、音声とキーボード入力を実に巧みに区別している。iPhoneの加速度センサーと近接センサーを使って、利用者が携帯電話を口元に持っていったことを判別できる。後は声を出すだけで、ユーザーの音声が処理されて検索クエリに変換される。これにはGoogleのGOOG-411番号案内サービスと同様に、推測変換も含まれる。音声検索はウェブ検索と連絡先の両方に対応しており、連絡先の音声検索アプリ

                                    グーグル、音声で検索可能な「iPhone」アプリをまもなく発表へ
                                  • YouTube、日本語音声を認識して字幕を自動生成・表示する機能を追加

                                    • メル周波数ケプストラム係数(MFCC) - 人工知能に関する断創録

                                      Pythonで音声信号処理(2011/05/14)の第19回目。 今回は、音声認識の特徴量としてよく見かけるメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients)を求めてみました。いわゆるMFCCです。 MFCCはケプストラム(2012/2/11)と同じく声道特性を表す特徴量です。ケプストラムとMFCCの違いはMFCCが人間の音声知覚の特徴を考慮していることです。メルという言葉がそれを表しています。 MFCCの抽出手順をまとめると プリエンファシスフィルタで波形の高域成分を強調する 窓関数をかけた後にFFTして振幅スペクトルを求める 振幅スペクトルにメルフィルタバンクをかけて圧縮する 上記の圧縮した数値列を信号とみなして離散コサイン変換する 得られたケプストラムの低次成分がMFCC となります。私が参考にしたコードは振幅スペクトルを使ってたけど

                                        メル周波数ケプストラム係数(MFCC) - 人工知能に関する断創録
                                      • 1600問テストでSiriがグーグル検索に惨敗。音声検索対決もG圧勝(動画あり)

                                        1600問テストでSiriがグーグル検索に惨敗。音声検索対決もG圧勝(動画あり)2012.07.02 14:00 satomi パイパー・ジャフレイの名物アナリスト、ジーン・マンスター氏がSiriに1600問(街の喧騒で800問、静かな室内で800問)の質問をし、グーグル検索と比較するテストを実施。正答率はグーグルが約9割、Siriが約6~7割で、Siriが想像以上に使えないことがわかりました。 これは28日(米時間)、クライアント宛てメモで明らかにしたもの。マンスター氏と言えばアップル大好きで、iPhone発売日にアップルストアの列の人数を数えたり、アップルのイベントに行って開発者にアプリ作るかどうか聞いて回ったり、足で情報を稼ぐアナリストですが、1600問とは...相変わらず徹底してますね。 テスト結果は以下の通りです。 ・グーグルは100%の質問を理解した。 ・グーグルの正答率は86

                                          1600問テストでSiriがグーグル検索に惨敗。音声検索対決もG圧勝(動画あり)
                                        • GitHub - microsoft/CNTK: Microsoft Cognitive Toolkit (CNTK), an open source deep-learning toolkit

                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                            GitHub - microsoft/CNTK: Microsoft Cognitive Toolkit (CNTK), an open source deep-learning toolkit
                                          • 自然言語処理の歴史とこれから ビジネスとして成立させるために必要なこと

                                            検索やレコメンドに必要な形態素解析 海野裕也氏(以下、海野):自然言語処理の研究とは何かといいますと、私みたいな研究をやっている人間からすると、例えば機械翻訳だったり、質問応答みたいな目標があって、その中の技術として、ここ(スライド)に書いてあるような、漢字で長ったらしい、いろんな技術がある。 含意関係認識や、述語項構造解析、照応解析など、いっぱいあるんですけども。だいたい世間の人から見ると、「あ、自然言語処理って形態素解析のことでしょ?」って言われるわけですね。 形態素解析はもちろん今でも研究はされてはいるんですけども、残念ながら学会の中ではかなりマイノリティです。発表件数が2件とかしかなくて、セッションを組めないぐらい、ほとんどあんまりいない。あ、いないって言うとやってる人に失礼なので、ちょっとあれなんですけど(笑)。1分野なんですね。すごく狭い領域なんです。 現実的には、言語で書かれ

                                              自然言語処理の歴史とこれから ビジネスとして成立させるために必要なこと
                                            • Skypeで日本語のリアルタイム音声翻訳が可能に ~Microsoft Translatorは深層学習ベースの翻訳エンジンへ

                                                Skypeで日本語のリアルタイム音声翻訳が可能に ~Microsoft Translatorは深層学習ベースの翻訳エンジンへ
                                              • 「Google音声検索」日本語版開始、iPhoneとAndroidから利用可能

                                                • C# で日本語合成音声・音声認識をやってみよう。 - お前の血は何色だ!! 4

                                                  この記事は C# advent calendar 2011の記事です。 microsoftって音声認識・合成音声のOS組み込みをXPから初めています。 今回は、そのライブラリを使い、日本語合成音声でしゃべり、日本語の音声認識するソフトの作り方を説明したいと思います。 サンプルの使い方とソース サンプルソース http://rtilabs.net/files/2011_12_16/speechplatformtest_src.zip サンプルexe http://rtilabs.net/files/2011_12_16/speechplatformtest.zip 開発環境 windows7 64bit .Net4 依存ライブラリ Speech Platform ver11 http://mahoro-ba.net/e1541.html http://www.microsoft.com/do

                                                    C# で日本語合成音声・音声認識をやってみよう。 - お前の血は何色だ!! 4
                                                  • 【Alexa初心者向け】Alexa Skill Kitを噛み砕いて解説してみる | DevelopersIO

                                                    こんにちは、せーのです。今日はこのところ盛り上がりを見せるAmazonの音声認識プラットフォーム「Alexa」のスキルについて用語の説明から噛み砕いていきたいと思います。 Alexaについて 去年行われたre:Invent 2016にてAlexaが大プッシュされて専門のセッションが沢山行われたこと、またそのre:Inventにて紹介された新サービス「Amazon LEX」「Amazon Polly」がいずれもAlexaの機能がベースになっていること、先日行われたCESでもAlexaが搭載された製品が700以上紹介されたこと等を受けて今、全世界的にAlexaが注目されています。ちなみにAlexaそのものについては最近佐々木が集中的にブログを書いているのでそちらをご覧頂ければと思います。 Amazon Alexaの基礎知識|クラスメソッドブログ 体験!初めてのAmazon Alexa|クラスメ

                                                      【Alexa初心者向け】Alexa Skill Kitを噛み砕いて解説してみる | DevelopersIO
                                                    • TechCrunch | Startup and Technology News

                                                      TechCrunch Disrupt 2024 will be in San Francisco on October 28–30, and we’re already excited! This is the startup world’s main event, and it’s where you’ll find the knowledge, tools… As a part of a multi-part series, TechCrunch is highlighting women innovators — from academics to policymakers —in the field of AI.

                                                        TechCrunch | Startup and Technology News
                                                      • SankeiBiz(サンケイビズ):自分を磨く経済情報サイト

                                                        サービス終了のお知らせ SankeiBizは、2022年12月26日をもちましてサービスを終了させていただきました。長らくのご愛読、誠にありがとうございました。 産経デジタルがお送りする経済ニュースは「iza! 経済ニュース」でお楽しみください。 このページは5秒後に「iza!経済ニュース」(https://www.iza.ne.jp/economy/)に転送されます。 ページが切り替わらない場合は以下のボタンから「iza! 経済ニュース」へ移動をお願いします。 iza! 経済ニュースへ

                                                          SankeiBiz(サンケイビズ):自分を磨く経済情報サイト
                                                        • 日本語ポッドキャストの全文検索サービス、産総研が公開

                                                          Windows SQL Server 2005サポート終了の4月12日が迫る、報告済み脆弱性の深刻度も高く、早急な移行を

                                                          • 【レポート】HTML5、日本語で音声入力する方法 | エンタープライズ | マイコミジャーナル

                                                            Google Chrome runs web pages and applications with lightning speed. Chrome 11安定版にはスピーチ入力機能が実装されている。input要素の入力に音声を利用できるというもので、Chrome 11以降のバージョンを使っているなら、たとえばGoogle翻訳のページで簡単に試すことができる。Google翻訳の翻訳元言語を「英語」にすると、テキストエリアの右下にマイクのアイコンが表示される。このアイコンをクリックすると音声入力を受け付けるモードに入る。音声は英語に変換され、テキストエリアに表示される。 この機能はinput要素を拡張する形で実装されており、試してみるのに特別なプログラミンは必要ない。「<input x-webkit-speech type="text" />」のように、input要素の属性にHTML5の「x-

                                                            • Siriが目的地までの経路や付近のお店を教えてくれるようになりました! | AppBank

                                                              日本でも10月からSiriで「ローカル検索」「道順」「レストラン情報」が調べられるようになる、と案内されていましたが、本日から使えるようになりました。 さっそく使ってみましたので、サクッとご紹介いたします! *これらの機能を利用するには、Siriの位置情報利用をオンにしてください。 道順 さっそくホームボタンを長押ししてSiriを呼び出し、「家までの経路」を聞いてみると… 現在地から自宅までの経路を検索し、マップアプリに切り替わり、すぐにルート案内を開始してくれました。(自宅の情報は、自分の連絡先に登録されている住所が使われます) 「新宿から渋谷まで」も可能です。(新宿区から渋谷区までになってしまいましたが…) ローカル検索 付近にあるお店なども教えてくれるようになっています。試しに「コンビニ」と聞いてみると…すぐに付近のコンビニがリストアップされました。 さらに「一番近いコンビニはここで

                                                                Siriが目的地までの経路や付近のお店を教えてくれるようになりました! | AppBank
                                                              • 音声認識で人間並みのコミュニケーションが可能に――「AmiVoice」の未来 (1/2) - ITmedia Mobile

                                                                アドバンスト・メディアは同社の音声認識技術「AmiVoice」を用いて、医療やビジネスソリューション、コールセンター、教育、議事録などさまざまな分野で“音声認識”を浸透させてきた。モバイルでは、同社のらくらくホン向け「音声入力メール」やiPhone向け「音声認識メール」のほか、GoogleもiPhoneやAndroid端末向けに音声検索を提供。音声認識は文字入力に変わる新たなユーザーインタフェースとして身近な存在になりつつある。 音声認識技術は今後どのような進化を遂げ、どのようなビジネスモデルが創出されるのか。同社が1月22日に実施した技術・戦略説明会で、その詳細を明かした。 今後は機械が人間並みのコミュニケーション能力を持つ アドバンスト・メディア 代表取締役会長の鈴木清幸氏は、「これまでの音声認識技術は機械中心だったが、今後は人間中心に回帰する」と話し、現在が転換期であることを示唆した

                                                                  音声認識で人間並みのコミュニケーションが可能に――「AmiVoice」の未来 (1/2) - ITmedia Mobile
                                                                • 怖すぎです...。世界初のインターラクティブ・ホラー映画「Last Call by 13th Street」(動画あり)

                                                                  怖すぎです...。世界初のインターラクティブ・ホラー映画「Last Call by 13th Street」(動画あり)2010.03.15 20:00 junjun 映画の中のヒロインから、あなたの携帯に電話がかかってくるんです。 ん? どういうこと? って思いますよね。こちら、Last Call by 13th Streetは、初のインターラクティブなホラー映画で、主人公からランダムに選ばれた観客に電話がかかってきて、「助けて!」「私、次にどうしたらいいの?」とか「あの人を助けるべき?」と観客に助言を求めてきたりするんです。 そして、電話をもらった観客は「逃げて!」とか「隠れて!」「そっちに言っちゃダメ!」とアドバイスすると、主人公は意見を取り入れ、ストーリーが展開されていくんです。 これは、新しいドイツ映画なんですけど観客を巻き込んで、映画の中キャラクター達と劇場の中人達の気持ちを一

                                                                    怖すぎです...。世界初のインターラクティブ・ホラー映画「Last Call by 13th Street」(動画あり)
                                                                  • Raspberry Pi + Julius + LIRC により家電製品を音声認識で操作する

                                                                    0. はじめに 本書の第5章において、LIRC(Linux Infrared Remote Control) というソフトウェアを用いてRaspberry Piをテレビなどの家電製品のリモコンにする方法を紹介しました。 さらに、本ページの追加コンテンツ「Raspberry Pi上のLIRCでエアコンを操作する」において、書籍では触れられなかったエアコンの操作方法も紹介しました。 これらにおいて、家電製品へ命令を送信する方法として下記の3つを用いました。 ターミナル上でのirsendコマンドによる送信 タクトスイッチによる送信 WebIOPiによるブラウザ経由の送信 本ページではこれらの3つに加え、「音声による命令の送信」の方法を紹介します。音声認識のためには音声認識エンジンであるJuliusを用います。 応用的なコンテンツとなりますので、本書第5章の「ターミナル上でのirsendコマンドに

                                                                      Raspberry Pi + Julius + LIRC により家電製品を音声認識で操作する
                                                                    • 音声アプリの継続利用は2週間後でわずか3%ーーAlexaなどの音声アシスタントが抱えるユーザーのリテンションという課題 - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

                                                                      image via. Amazon <ピックアップ> Alexa and Google Assistant have a problem: People aren’t sticking with voice apps they try 消費が高まる昨年のホリデー期間、ヒット商品に躍り出たのは「Amazon Echo」や「Google Home」などの音声ホームアシスタントだった。2017年に出荷される同様サービスは2,450万台になる見込みで、2016年比で650万台の増加となる。 この予測を発表したのは、スタートアップ「VoiceLabs」。同社は、音声ホームアシスタント用の音声アプリを開発するデベロッパーに対して解析サービスを提供している。同社は、この市場は確実に伸びてはいくが、解決すべき大きな課題があると指摘する。 それはずばり、ユーザーのリテンションだ。現在、Alexaを使った音声

                                                                        音声アプリの継続利用は2週間後でわずか3%ーーAlexaなどの音声アシスタントが抱えるユーザーのリテンションという課題 - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
                                                                      • グーグルの書き起こし機能、テキスト保存が可能に

                                                                          グーグルの書き起こし機能、テキスト保存が可能に
                                                                        • これがスマホのキーボード! ― 指にはめて使う「Tap」 [えんウチ]

                                                                          「Tap」は、Tap Systemsが開発した指にはめて使うスマートフォン/タブレット用のキーボード。装着すれば、手元を見なくても正確で高速な文字入力が可能になる。 スマートフォン向けの入力デバイスとしては音声入力が期待されている。だが、周囲がうるさい場所では認識率が下がってしまうし、会議中など喋ってはいけない場所では利用できないなどの問題を抱えている。長い文章も苦手だ。 「Tap」はこれらの問題を解決するかもしれない入力デバイス。スマートフォンの仮想キーボードや音声認識よりも正確かつ高速な入力が可能になる

                                                                            これがスマホのキーボード! ― 指にはめて使う「Tap」 [えんウチ]
                                                                          • Engadget | Technology News & Reviews

                                                                            Research indicates that carbon dioxide removal plans will not be enough to meet Paris treaty goals

                                                                              Engadget | Technology News & Reviews
                                                                            • Google翻訳アプリ新機能「視覚翻訳」「音声リアルタイム翻訳」を使ってみた

                                                                              Googleはカメラをかざすだけで視覚的に言語を翻訳するアプリ「Word Lens」の開発元を2014年5月に買収しましたが、「Google翻訳」の新機能として、写真の中のテキストを視覚的に別言語に変換する機能と、マイクに話しかけてリアルタイム翻訳できる機能が追加されました。一体どれくらいの精度なのか、さっそく2つの新機能を実際に試してみました。 Hallo, hola, olá to the new, more powerful Google Translate app - Google Translate Blog http://googletranslate.blogspot.jp/2015/01/hallo-hola-ola-to-new-more-powerful_14.html Google翻訳アプリの新機能はiOS・Androidアプリで使用可能。 iTunes の App

                                                                                Google翻訳アプリ新機能「視覚翻訳」「音声リアルタイム翻訳」を使ってみた
                                                                              • 「CLOVA Note」は、なぜ高精度な音声認識を実現できるのか。Speechチームが語る開発秘話

                                                                                LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2022年5月24日より、LINE株式会社は「会話を目で見る」ことができる無料のAI音声認識アプリ「CLOVA Note」のβ版の提供を開始しました。「CLOVA Note」は、LINE CLOVAのAI技術である「CLOVA Speech(音声認識)」の音声認識AIを活用して、録音した声をテキストに変換します。アプリをインストールし、スマートフォンやタブレットの録音ボタンを押すだけで、誰でも簡単に利用可能です。 「CLOVA Speech」は、近年注目を集めているSelf-Supervised Learning(自己教師あり学習)を利用した、最先端のEnd-to-End音声認識を採用しています。そして複数名の話者の区別を行う

                                                                                  「CLOVA Note」は、なぜ高精度な音声認識を実現できるのか。Speechチームが語る開発秘話
                                                                                • 動画の音声が自動的に日本語字幕に YouTube自動キャプション機能が日本語対応

                                                                                  Googleは7月15日、YouTube動画内の発言を認識して自動で字幕を付ける「自動キャプション機能」を日本語に対応させた。YouTubeにアップされている多くの動画で利用できる。 音声認識技術を利用し、動画内の発言内容をそのまま字幕として表示する機能。動画の再生中、動画プレーヤーの下の再生バーの中に現れる「CC」ボタンを押すことで利用できる。 字幕は漢字変換なども自動で行い、Google翻訳機能を使って50以上の言語に同時翻訳して表示することもできる。 同機能で対応した言語は英語に続き2番目。昨年11月にリリースした英語版には耳の不自由なエンジニアが開発に携わり、実際に耳の不自由な人が情報にアクセスしやすくなるツールとして活用されている。新機能について、全日本ろうあ連盟は「Googleが世界中の誰もがいつでもどこでも情報にアクセスできる『ユニバーサルアクセス』を使命として掲げ、それを着

                                                                                    動画の音声が自動的に日本語字幕に YouTube自動キャプション機能が日本語対応