並び順

ブックマーク数

期間指定

  • から
  • まで

441 - 480 件 / 2710件

新着順 人気順

音声認識の検索結果441 - 480 件 / 2710件

  • TechCrunch | Startup and Technology News

    Meta has been banned from launching features on Facebook and Instagram that would have collected data on voters in Spain using the social networks ahead of next month’s European Elections.…

      TechCrunch | Startup and Technology News
    • 鼻歌とタイピングで初音ミクに歌わせることができるの作った

      鼻歌を歌いながらタイピングすることでリアルタイムで簡単にミクに歌わせることができます。重音テト版も作ったsm21947823EC2013で展示してきました。沢山の意見ありがとうございました。Twitter @cof08312普段は全然違う動画挙げてますmylist/45120192俺がミクだ!!!操作説明動画→sm22033683!!

        鼻歌とタイピングで初音ミクに歌わせることができるの作った
      • TechCrunchハッカソン2014で入賞しました! - その後のその後

        一昨日、昨日と2日間にわたって開催された『TechCrunch Tokyo Hackathon 2014』に参加し、賞をいただきました。 上位5チームが発表され、その中での順位は発表されなかったのですが、あとで聞いたところによると、上位5チーム中得票数1位(!)だったとのことです。 参加者120名(160?)の大規模ハッカソンでした。以下ざっくりレポート。 特別参加エンジニア 昨年の同ハッカソンでは"TechTalk"という枠組みで『スキルなし・実績なし 32歳窓際エンジニアがシリコンバレーで働くようになるまで』というタイトルで講演させていただいた縁もあり、TechCrunch Japan編集長の西村さんよりお声がけいただき、今回は「特別参加エンジニア」という枠で参加させていただきました。 増井雄一郎氏、堤修一氏も参加決定、TechCrunch Tokyo Hackathonは空き枠あり!

          TechCrunchハッカソン2014で入賞しました! - その後のその後
        • ディープ・ラーニングがぶつかった分厚い壁---最先端のAIでも、人間のように言葉を操ることはできない!(小林 雅一) @gendai_biz

          ディープ・ラーニングがぶつかった分厚い壁---最先端のAIでも、人間のように言葉を操ることはできない! 先週のコラムでは、マイクロソフトが開発したAI女子高生を「りんな」を取り上げた。現在、その会話能力はお世辞にも高いとは言えないが、今後とも劇的に改善することは(少なくとも当面は)ないだろう、と述べた。 筆者がそう予想する理由は、「りんな」の基盤技術である最先端AI「ディープ・ラーニング」が今、分厚い壁にぶつかっているからだ。それを以下、説明していきたい。 「見て、聞くAI」は「言葉を操るAI」にも応用できるのか? ディープ・ラーニングは今までのところ「画像認識」や「音声認識」など、いわゆるパターン認識の分野で極めて高い性能を示している。この大きな理由の一つは、ディープ・ラーニングが本格的な脳科学の研究成果、中でも大脳の視覚・聴覚野などに共通する認識メカニズム「スパース・コーディング」を導

            ディープ・ラーニングがぶつかった分厚い壁---最先端のAIでも、人間のように言葉を操ることはできない!(小林 雅一) @gendai_biz
          • 樋口健夫の「笑うアイデア、動かす発想」:さよならキーボード――音声と手書きの二刀流「ハイブリッド入力」 - ITmedia Biz.ID

            さよならキーボード――音声と手書きの二刀流「ハイブリッド入力」:樋口健夫の「笑うアイデア、動かす発想」 7月下旬、左ヒジに激しい痛みを感じた筆者は、医者から「タイピングをやめなさい」と言われた。書籍の原稿が滞ってしまう。どうしよう……。そんな時に編み出したのが、音声入力とタブレットPCを組み合わせた「ハイブリッド入力」である。あなたのタブレットPC、遊ばせてないか――。 7月下旬のことだった。突然、筆者は左ヒジに激しい痛みを感じ始めた。同時に左右の薬指に腱鞘炎が生じた。これではタイピングできない。大問題は、次に出版する書籍の原稿が滞ることだった。かかりつけの医師に診てもらうと、PCの使い過ぎを指摘された。「直すのは簡単だよ。タイピングを止めなさい。そうすればすぐに治るよ」「それは、難しいです。画家に筆を取るなというのと同じです」「じゃ、治らんね」。 これは大変だ、どうしよう。商売替えも考え

              樋口健夫の「笑うアイデア、動かす発想」:さよならキーボード――音声と手書きの二刀流「ハイブリッド入力」 - ITmedia Biz.ID
            • Kotaku - The Gamer's Guide

              Capital One’s Venture card has always been a bit of a hybrid between cash back and travel rewards cards. While you could earn a lot of points through Hotels.com, and erase travel purchases from your credit card statement by redeeming them, you couldn’t transfer them to any airline programs like you could points from …

                Kotaku - The Gamer's Guide
              • MIT、光を使ったディープラーニングの原理実証-計算時間と消費電力を大幅削減

                マサチューセッツ工科大学(MIT)の研究チームは、ディープラーニングに必要とされる複雑で多量の計算を光コンピューティングを使って高速化、低消費電力化する技術を開発したと発表した。まだ概念実証の段階だが、原理的にはディープラーニングの計算時間を大幅に短縮でき、従来のコンピュータに比べて消費電力を1/1000程度にできるという。研究論文は光学分野の専門誌「Nature photonics」に掲載された。 ニューラルネットワークに基づくディープラーニング技術は、画像認識や音声認識をはじめ、医療データベースの中から診断に利用できるパターンを見つけ出したり、膨大な化学式を探索して新薬を創出するなど、さまざまな分野で使われるようになってきている。 しかし、膨大なデータサンプルを学習する過程では時間とエネルギーを消費する大量の計算を行う必要がある。ディープラーニングで多用される計算は、主に行列同士の掛け

                  MIT、光を使ったディープラーニングの原理実証-計算時間と消費電力を大幅削減
                • googleの日本語音声認識を自由に呼び出して使う方法 - お前の血は何色だ!! 4

                  google chrome とかにある、google音声認識を自由にプログラムから呼び出す方法を調べたので書いてみる。 Fiddler2 でごにごにしてぐるぐるした結果、こーなった。 音声データは、 16000hz 1channel の flac形式で送信している。 で、その結果を元に調べてみると、外人で何人か解析している人がいた。 だけど、日本語のやつがなかったんで作ってみた。 基本的には、lang=ja と lang=US の違いぐらいだけど。 まず、手元に 16000hz 1channel の test.flac を作る。 ffmpeg使うと簡単に作れる。 ffmpeg -i test.wma -vn -ac 1 -ar 16000 -acodec flac test.flac あとは、HTTPS通信してデータを取得する。 chrome がやっているとおりに投げてみた。 なので、サー

                    googleの日本語音声認識を自由に呼び出して使う方法 - お前の血は何色だ!! 4
                  • Amazonが話しかけるとお買い物リスト作成・予定管理・音楽再生・検索などができる「Amazon Echo」を販売開始

                    Amazonは声で話しかけるだけでさまざまな操作が可能になるデバイス「Echo」を発表しました。Echoは人の声を認識することが可能で、iPhoneなどに搭載されるSiriのようなアシスタント機能を利用することが可能です。 Amazon Echo - Official site - Request an invitation http://www.amazon.com/oc/echo 「Echo」は筒状の形状をしたデバイス。胴体の下半分はメッシュ状になっており、上部にはコントロール関連のボタンを集中して配置されています。 そのサイズは、直径約8センチ×高さ23.5センチ。本体の一番上は回転式のボリュームリングやコントロール関連を内蔵し、その下には低音用と高音用の専用スピーカーが内蔵されています。 また、最上面には7つのマイクを内蔵して話しかける声だけを検出する技術を採用。部屋中のどこから話

                      Amazonが話しかけるとお買い物リスト作成・予定管理・音楽再生・検索などができる「Amazon Echo」を販売開始
                    • Speech to Text Demo

                      Speech to TextThe IBM Watson Speech to Text service uses speech recognition capabilities to convert Arabic, English, Spanish, French, Brazilian Portuguese, Japanese, Korean, German, and Mandarin speech into text. This system is for demonstration purposes only and is not intended to process Personal Data. No Personal Data is to be entered into this system as it may not have the necessary controls i

                      • 実際の音を聞いて理解する「TrueAudio」。一部GPUとAPUに統合した新機能で,AMDは何を狙っているのか

                        実際の音を聞いて理解する「TrueAudio」。一部GPUとAPUに統合した新機能で,AMDは何を狙っているのか ライター:榎本 涼 Radeon R9&R7シリーズのうち,「Radeon R9 295X2」(以下,R9 295X2)と「Radeon R9 290X」(以下,R9 290X),「Radeon R9 290」(以下,R9 290),そして「Radeon R7 260X」(以下,R7 260X)およびKaveri世代の「AMD A-Series」(以下,A-Series)APUだけがサポートする「TrueAudio」(トゥルーオーディオ)を覚えているだろうか。 AMD独自のグラフィックスAPI「Mantle」とセットで大々的に発表されたにもかかわらず,2014年8月時点でサポートされる製品版タイトルはPC版「Thief」のみで,Mantleと比べると今ひとつぱっとしないため,す

                          実際の音を聞いて理解する「TrueAudio」。一部GPUとAPUに統合した新機能で,AMDは何を狙っているのか
                        • マイクロソフトの音声認識システム、「人と同等」レベルに到達

                          Microsoftの研究員が開発した音声認識システムが、人間の速記者と同レベルとされる単語誤り率を達成した。 Microsoftは米国時間8月21日、同社の音声認識システムが、プロの速記者に匹敵するとされる5.1%の単語誤り率に達したと発表した。 Microsoftは2016年、5.9%の単語誤り率で「ヒューマンパリティ(人間と同程度)」に到達したと考えたが、IBMの研究員らは、そこまでのレベルに達したとするには、IBMの最高記録である5.5%をやや上回る5.1%に達する必要があると主張した。 IBMが実施した速記者に関する研究では、数人に会話を何回か聞いてもらい、もっとも優秀な速記者の結果が選ばれた。 Microsoftのシステムは、2016年のテストと同様に、データセット「Switchboard」コーパスを使って測定された。Switchboardコーパスは、見知らぬ者同士が電話越しに米

                            マイクロソフトの音声認識システム、「人と同等」レベルに到達
                          • Windows Azure : Windows Azure Joins Windows Server in a New Organization: Server & Cloud Division

                            Products Popular View all products (200+) Azure Virtual Machines Azure Virtual Desktop Azure SQL Microsoft Copilot in Azure PREVIEW Azure AI Services Azure AI Studio Azure Cosmos DB Azure Kubernetes Service (AKS) Azure Arc​ Azure Migrate AI + machine learning Azure Machine Learning Azure AI Services Microsoft Copilot in Azure PREVIEW Azure OpenAI Service Azure AI Studio Azure AI Vision Azure AI Se

                              Windows Azure : Windows Azure Joins Windows Server in a New Organization: Server & Cloud Division
                            • YouTube、動画に自動で字幕をつける機能を導入

                              米Googleは11月20日、YouTubeの動画に自動的に字幕をつける機能を導入すると発表した。 Googleはこれまで、YouTubeの動画に字幕をつけられる機能や、字幕の機械翻訳機能を導入してきた。しかし同サイトの動画の大半は字幕がなく、聴覚障害者にとって不便な状況となっている。こうした状況を解決するため、同社は自動的に動画に字幕をつけるAuto-caps機能を開発した。 Auto-caps機能は、音声認識技術(ASR)をYouTubeの字幕システムと連係させ、動画に自動的に字幕をつける。音声認識技術はGoogle Voiceと同じものを使っている。字幕が正確でない場合もあるが、改善を続けるとしている。 さらに、手動で字幕をつける場合に便利なAuto-timingツールも立ち上げる。字幕に使う文章を書き込んだテキストファイルを作成すると、ARSが動画内で音声が出るタイミングを分析し、

                                YouTube、動画に自動で字幕をつける機能を導入
                              • Googleドキュメントが音声入力に対応したので喋って書いてみた

                                Googleドキュメントがアップデートされ 音声入力に対応しました これにより キーボード タブレット端末などでも 気軽に文字入力が出来るようになります 温泉利用するには ツール 右矢印 音声入力とクリック音声入力ボタンが表示されるので こちらをクリックすると 音声認識が開始されます 錦中は男が赤くなり 入力された音声は自動的に変換されます 前後の文脈などを販売しているようで長い言葉などは 前後の文脈を参考にしてですね としてはよく出しています なお この原稿はグーグルドキュメントの音声入力だけで書き上げました どうでしょうか 読めますか ●以下原文 Googleドキュメントがアップデートされ、新たに音声入力に対応しました。これによりキーボードの無いタブレット端末などでも気軽に文字入力ができるようになります。 音声入力を利用するには「ツール」→「音声入力」とクリック。音声入力ボタンが表示さ

                                  Googleドキュメントが音声入力に対応したので喋って書いてみた
                                • Google Mobile App: 音声検索がすごい!検索の仕方を覚えればかなり使える便利アプリ!2154 | AppBank

                                  おすすめアプリ、ゲーム、iPhone、スマホの使い方、ガジェットなどのお得な情報をお届け | AppBank

                                  • グーグルの書き起こし機能「音声文字変換(Live Transcribe)」の秘密を聞く

                                      グーグルの書き起こし機能「音声文字変換(Live Transcribe)」の秘密を聞く
                                    • Google Chromeに英語の「自動字幕起こし」機能

                                        Google Chromeに英語の「自動字幕起こし」機能
                                      • Google、アプリに音声認識機能を追加できる「Cloud Speech API」を公開

                                        米Googleは3月23日(現地時間)、米サンフランシスコで開催のクラウド関連イベント「GCP Next 2016」において、アプリに機械学習による音声認識機能を追加できる「Google Cloud Speech API」(プレビュー)をリリースしたと発表した。「Google Cloud Platform」を利用する開発者はこちらから限定プレビューに申し込める。少なくともプレビュー期間中は無料だ。 Cloud Speech APIは、同社がAndroidの「Google Now」の音声検索や「Google Keyboard」での音声によるテキスト入力などで使っているディープラーニングニューラルネットワーク技術「Automatic Speech Recognition」をアプリで使えるようにするREST API。 80カ国語以上をサポートし、雑音の多い環境でも高い認識性能を誇る。 デモ動画(

                                          Google、アプリに音声認識機能を追加できる「Cloud Speech API」を公開
                                        • Amazon.com: Amazon Echo - Black (1st Generation): Amazon Devices

                                          Comment: Minor cosmetic imperfection on the item. This device is not accompanied by a manufacturer’s warranty. Fulfillment by Amazon (FBA) is a service we offer sellers that lets them store their products in Amazon's fulfillment centers, and we directly pack, ship, and provide customer service for these products. Something we hope you'll especially enjoy: FBA items qualify for FREE Shipping and Am

                                          • Engadget | Technology News & Reviews

                                            Parrots in captivity seem to enjoy video-chatting with their friends on Messenger

                                              Engadget | Technology News & Reviews
                                            • 聞き上手な男性は要注意?!浮気する男の特徴を合コンの会話内容から分析してみた | AI専門ニュースメディア AINOW

                                              最終更新日: 2019年7月10日 こんにちは、株式会社メンヘラテクノロジーのらんらんです。AINOWでもライターをしています。 私はいつも彼氏が浮気をしないか不安で仕方なく、病むことが多々あります。いまのところ実際に浮気をされたことはないのですが、私と付き合う前には浮気経験がないこともないらしく…付き合い始めて3年半近く経つ現在もその不安が拭いきれません。 とはいえ、少なくとも3年半は浮気をしていない(たぶん)ということも事実。現在は浮気をしないタイプの男に変遷を遂げている可能性もあります。 つまり、彼氏はもう「浮気をする男ではない」と確信することができれば、私は病むことなく、超ウルトラ幸せハッピーるんるんな生活を送ることができるようになるのでは…? というとこから思いついたのが今回の企画。 「彼氏=浮気する男ではない」と確信するためには、まず、浮気する男の特徴を知る必要があります。そこ

                                                聞き上手な男性は要注意?!浮気する男の特徴を合コンの会話内容から分析してみた | AI専門ニュースメディア AINOW
                                              • 鼻歌検索「midomi」日本版公開 携帯版も年内に - ITmedia News

                                                鼻歌を吹き込むと、その歌の曲名や歌手名を教えてくれる米Melodis Corporationのサービス「midomi」日本語版が、8月10日に公開される。メロディや歌詞は思い出せるけど曲名がどうしても思い出せない――そんな状況を助けてくれる上、世界の“鼻歌アーティスト”にも出会える(関連記事参照)。 「カラオケなど歌の文化が発達し、携帯電話の機能が先進的な日本は、当社にとって重要な市場」――来日した同社のケイヴァン・モハジャーCEOはこう話し、PC版だけでなく携帯版も年内に始めたいとする考えを明かした。 音が外れてても、詞が分からなくても判別 midomiは、PCに接続したマイクから鼻歌を吹き込めば、曲名や歌手名とひも付けた“鼻歌データベース”と照合。数秒で曲名や歌手名を探し出し、同じ歌を歌った人の鼻歌も聴ける、というサービスだ。 人の声に特化した独自の音声認識エンジン「MARS」(Mul

                                                  鼻歌検索「midomi」日本版公開 携帯版も年内に - ITmedia News
                                                • Kotaku - The Gamer's Guide

                                                  The Missing begins with two messages: “This game was made with the belief that nobody is wrong for being what they are” and “This game contains explicit content, including extreme violence, sexual topics, and depictions of suicide.” The messages cut straight to the chase: The Missing is both a sweet love story and one…

                                                    Kotaku - The Gamer's Guide
                                                  • 動画で見るUI開発最前線(前編):タッチパネルの次に来るものは何か

                                                    タッチパネルの次に来るものは何か――。iPhoneの登場以来,情報機器の差異化要素として,新しいユーザー・インタフェース(UI)が注目を浴びている。ペン入力や音声インタフェースなど,より親しみやすく自然なUIの本格的導入を間近に控え,情報処理の対象となる範囲も,従来のデスクトップ環境から生活空間の全域へと急速に拡大している。ドラマティックな変化の最前線を探るため,米IT産業の集積地である西のシリコンバレーと東のケンブリッジを訪れ,これからのUIを形作るさまざまな要素技術や開発トレンドを取材した。その結果を,取材時に撮影した動画も交えて解説する。 パソコンからモバイル端末へ,時代をリードするIT製品が世代交代を迎え,人と情報機器の関係を規定するユーザー・インタフェース(UI)もまた,歴史的な転換点に差しかかっている。 UIとは文字通り,ユーザー(人)とコンピュータ(情報機器)のインタフェース

                                                      動画で見るUI開発最前線(前編):タッチパネルの次に来るものは何か
                                                    • | docomo Developer support | NTTドコモ

                                                      API共通 ガイドライン ドコモのAPIのご利用にあたって、共通で必要となる情報のご案内です。 よくあるご質問 APIなどの各サービスに関するよくある質問を掲載します。 お問い合わせ 「docomo Developer support」及び「作ろうスマートフォン/iモードコンテンツ」に関するお問い合わせです。よくあるご質問や技術ブログで解決しない場合は、お問い合わせください。

                                                      • Introducing Whisper

                                                        Whisper is an automatic speech recognition (ASR) system trained on 680,000 hours of multilingual and multitask supervised data collected from the web. We show that the use of such a large and diverse dataset leads to improved robustness to accents, background noise and technical language. Moreover, it enables transcription in multiple languages, as well as translation from those languages into Eng

                                                          Introducing Whisper
                                                        • HTK Speech Recognition Toolkit

                                                          Getting HTK Documentation Mailing Lists Development Links What is HTK? The Hidden Markov Model Toolkit (HTK) is a portable toolkit for building and manipulating hidden Markov models. HTK is primarily used for speech recognition research although it has been used for numerous other applications including research into speech synthesis, character recognition and DNA sequencing. HTK is in use at hund

                                                          • 「OK,Google. いいニュースを聞かせてくれ」 - 超平面あのにのに

                                                            この記事はWebスクレイピング Advent Calendar 2017の2日目の記事です。 adventar.org どうも、duenoです。先日転職をしまして、 前職ではそれはもうたーーーーーっくさんWebスクレイピングあれこれをやるような職場だったんですが、 現職ではそういった事、一切やらないです。 まぁでもなんか書こうと思ったので書きます。よろしくお願いします。 OK, Google. ニュース こう言うと、GoogleHomeは最新のニュースを読み上げてくれるんですが、 今やってみたら某相撲暴行問題の話。 ぼくはそんなネガティブなニュースばかり聞きたくない。いいニュースを読み上げてくれ。 そんなわけで、タイトルの通り、「OK,Google. いいニュースを聞かせてくれ」と言うとポジティブなニュースを読み上げてくれる機能を実装したいと思います。 仕組み 「OK,Google. いい

                                                              「OK,Google. いいニュースを聞かせてくれ」 - 超平面あのにのに
                                                            • 話しかけるだけで日本語を多言語に音声翻訳できる小型の翻訳デバイス「ili(イリー)」

                                                              Google翻訳などの翻訳サービスは、そのまま英文を貼り付けても自然な日本語に翻訳されないことがあります。日本語・英語間の機械翻訳は、英語に近い言語であるスペイン語やドイツ語に比べて難しいとされているのですが、片手持ちの端末に日本語を話しかけるだけで、高精度で英語や中国語に音声翻訳できるという、海外旅行で無敵なウェアラブル翻訳デバイス「ili(イリー)」が登場しました。 ili(イリー)- ウェアラブル翻訳デバイス http://iamili.com/ja/ iliは話しかけるだけで音声翻訳できる、インターネット不要のスタンドアロン型端末。 iliがどれくらいの精度で音声翻訳できるのかは、以下のムービーを見るとよく分かります。 Kisses in Tokyo - ili (Wearable Translator) by Logbar - YouTube iliを手にした男性が「I'm go

                                                                話しかけるだけで日本語を多言語に音声翻訳できる小型の翻訳デバイス「ili(イリー)」
                                                              • Voice Dictation - Online Speech Recognition

                                                                Type with your Voice in any languageUse the magic of speech recognition to write emails and documents in Google Chrome. Dictation accurately transcribes your speech to text in real time. You can add paragraphs, punctuation marks, and even smileys using voice commands. Launch Dictation Voice Commands Voice Dictation - Type with your VoiceDictation can recognize and transcribe popular languages incl

                                                                • CMUSphinx Open Source Speech Recognition

                                                                  Read the API documentation for C and for Python3 Pull requests and bug reports and such are welcome via https://github.com/cmusphinx/pocketsphinx. May 16, 2023 PocketSphinx 5.0.1 is released! PocketSphinx 5.0.1 is now released. This is a patch release which fixes a number of bugs and documentation errors in PocketSphinx 5.0.0. See the link above for more detail. Download source from GitHub or PyPI

                                                                  • iOS 5.1 の音声入力を使ってアプリケーションを操作してみる - 24/7 twenty-four seven

                                                                    iOS 5.1 から日本語の音声入力がサポートされました。さらに API にも UIDictationPhrase など音声認識ができそうなクラスが追加されています。 これはプログラムから音声認識を使うことができるのか?そうすると音声を使ってハンズフリーでアプリケーションの操作ができるかと思いましたが調べてみるとそんなにうまい話ではありませんでした。 まず iOS 5.1 で追加された関係のありそうな API を見てみましょう。 UITextInput.h Added UIDictationPhrase Added UIDictationPhrase.alternativeInterpretations Added UIDictationPhrase.text Added -[UITextInput dictationRecognitionFailed] Added -[UITextInp

                                                                      iOS 5.1 の音声入力を使ってアプリケーションを操作してみる - 24/7 twenty-four seven
                                                                    • 日本語話し言葉コーパス

                                                                      『日本語話し言葉コーパス』は、日本語の自発音声を大量にあつめて多くの研究用情報を付加した話し言葉研究用のデータベースであり、国立国語研究所・ 情報通信研究機構(旧通信総合研究所)・ 東京工業大学 が共同開発した、質・量ともに世界最高水準の話し言葉データベースです。本コーパスは音声言語情報処理、自然言語処理、 日本語学、言語学、音声学、心理学、社会学、日本語教育、辞書編纂など幅広い領域で利用されています。 2011.11.28『日本語話し言葉コーパス』第3刷の受付を開始しました。(更新:2011/11/28) 2011.02.18在庫がなくなりましたので、一旦受付を中止します。(更新:2011/2/18) 2008.05.02『日本語話し言葉コーパス』第2刷の受付を開始しました(更新:2008/05/02) 2008.03.24報告書『日本語話し言葉コーパスの構築法』がダウンロードできるよ

                                                                      • マイクロソフトが開発している「バーチャルヘッドホン」とは?

                                                                        マイクロソフトがヘッドホンを使わなくても、周囲の人に自分がしている会話を聞かれる心配がない「バーチャルヘッドホン」のアルゴリズムの開発に取りかかったそうです。 これを使うことによって、オフィスや公共の場所でSkypeなどの音声通話ソフトなどを使わないといけない場合、これまでのように周囲の人に自分がしている会話を聞かれることや、周囲の音に紛れて相手の声が聞こえにくくなることを懸念してヘッドホンを使う必要が無くなるとのこと。 ヘッドホンが手元になくても音声通話が可能になることや、ヘッドホンのコードに悩まされずに済むことなどを考えると、とても便利かもしれませんね。 詳細は以下の通り。 Technology Review: Computer Speakers for Your Ears Only この記事によると、現在マイクロソフトのIvan Tashevという研究者のチームが開発に取りかかってい

                                                                          マイクロソフトが開発している「バーチャルヘッドホン」とは?
                                                                        • Googleが音声認識API公開へ=モバイル機器は音声操作が主流に?【湯川】 | TechWave(テックウェーブ)

                                                                          iPhoneなどで利用できるGoogleアプリの音声認識技術の精度の高さは定評があるが、その音声認識技術のAPIを公開されることが明らかになった。ドイツのベルリンで開催中の家電業界の見本市IFA2010でGoogleのCEO、Eric Schmidt氏が行った基調講演の中で、Googleの担当者が会場からの質問に答えたもの。モバイルアプリを開発するサードパーティー向けに近くAPIを公開するという。 Googleの音声認識技術の精度が高いのは、だれよりも多くの検索データを持っているからだ。Google検索は、スペルを間違って入力しても、過去の無数の入力データを基に推測し正しいスペルを「もしかして」と提案してくれる。これと同様の仕組みで、聞き取りにくい発声であっても正しいキーワードを推測できるようになっている。 現時点ではGoogle提供のアプリの中でも検索アプリにしか音声認識技術は利用されて

                                                                          • TechCrunch | Startup and Technology News

                                                                            Ever wonder why conversational AI like ChatGPT says “Sorry, I can’t do that” or some other polite refusal? OpenAI is offering a limited look at the reasoning behind its own…

                                                                              TechCrunch | Startup and Technology News
                                                                            • shabetter-iphone-twitter-490.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+ipod_touch_lab+%28iPod+touch+%E3%83%A9%E3%83%9C%29

                                                                              『しゃべったー 』は、iPhoneに向かってつぶやくだけで投稿できる無料のTwitterクライアントです。 Twitter用に最適化された音声認識を搭載し、しゃべった音声をテキストに変換。すばやくTwitterへ投稿することができます。 初回起動時のみ、Twitterへの認証手続きが必要となります。 左下のメッセージでOKを押すとブラウザが開き、Twitterの認証画面が表示されます。ここでTwitterのアカウント・パスワードを入力。”Allow“を押します。 認証用のコード(PIN)が表示されるので、これをコピー(またはメモ)します。 再度『しゃべったー ー』を起動して、PINコードのフィールドへペースト(または入力)すれば認証が完了です。 Twitterのタイムラインの閲覧、リプライやダイレクトメッセージの確認といった基本的な機能は備わっています。 そして注目の投稿画面は、右上の「く

                                                                                shabetter-iphone-twitter-490.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+ipod_touch_lab+%28iPod+touch+%E3%83%A9%E3%83%9C%29
                                                                              • TechCrunch

                                                                                Happy Saturday, folks, and welcome to Week in Review (WiR), TechCrunch’s newsletter that covers the major stories in tech over the past several days. I feel inclined to begin this edition with a

                                                                                  TechCrunch
                                                                                • 音声認識を活用。Rubyから文章を指定して音声認識&処理実行·James MOONGIFT

                                                                                  JamesはMac OSXの音声認識をRubyから操作できるライブラリ。 JamesはRuby製/Mac OSX用のオープンソース・ソフトウェア。近未来の世界において(映画の中で)たびたび登場するのが音声認識によるコンピュータの操作だ。テレビをつけたり照明を消したり、必要な情報を音声によってやり取りする。 実行中 今のコンピュータでも実際には音声認識は可能だ。だがあまり使われていないイメージがある。そこでもっと使いやすくしてくれるのがJamesだ。 Jamesはコンピュータの中の人の名前だ。そしてMac OSXに標準で搭載されている音声認識機能を使って指令を受け取り、それをRuby上で実行してメッセージを返却する。処理を実行して終わることも、逆に音声を読み上げて完了を知らせることもできる。 コマンド例 時刻を言う、Twitterを取得する、iTunesを立ち上げた後に再生操作を行うなど様々