サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。
By Photo Giddy iPhone 4Sから搭載されている「Siri」は、話しかけるだけでメールを送ったり、目覚ましをセットしてくれたりする音声認識アプリケーションです。そんなSiri誕生に携わった開発者たちが、「複合的な質問を理解する」「ほぼ全てのアプリを実行可能」などSiriをはるかに越えるAIを備えた新しい音声認識システム「Viv」を開発しています。 Siri’s Inventors Are Building a Radical New AI That Does Anything You Ask | Enterprise | WIRED http://www.wired.com/2014/08/viv/ Siri’s founders are building a new AI assistant | The Verge http://www.theverge.com/201
ちょっと今までにない一風変わったサービスを作ってみました。 Skype を使って、声で HotPepper.jp のレストラン検索ができるハンズフリーな Web サービス、「声探」です。「食い探」に続く○探シリーズ第二弾。 マイクに向かって駅名を言うと、近くのレストランを検索してブラウザに表示します。 音声アプリケーションが英語版のため、ガイダンスが英語ですが、山手線の駅名を認識できるように作ってみました。 実際にどんな感じか見てもらったほうが早いので動画のデモを作りました。 「渋谷」と言えば、渋谷に近いレストランを表示します。↓ 次の結果を出したり、前に戻る、再検索する、といったアクションも声だけでできます。キーボードに触る必要がない、というわけで「ハンズフリーWebサービス」。 「Next」と言えば、次の検索結果を表示します。キーボードには触っていません。↓ 実用性はまだまだいまいちで
以前/.Jのストーリーで紹介されていたnisimura氏開発の w3voice ですが、精力的に開発を進められているようで、新たな機能が続々と追加されています。 今度は、たった一行を追加するだけで自分のWebサイトに音声認識/音声入力の機能が追加できる JavaScriptライブラリw3voiceIM.jsが公開されました。認識精度を高めるための実験でもあるので会話は全て録音され、分析・調査の対象となるとのことですが、遊ぶ分には楽しく遊べそうです。 そのうち、すらどの日記もおしゃべりするだけで書けるようになったりするのでしょうか。
USBマイク(今回はPLANEX USBオーディオ変換アダプタ PL-US35APとSANWA SUPPLY フラット型PCマイク MM-MC23を組み合わせました) PL-US35APのチップはC-Media製のCM119Aで、多くのLinuxディストリビューションで動作実績があります。 今回は上記のようにUSBオーディオアダプタを使いましたが、音声認識のみなら、USBマイクを使ってもいいと思います。 セルフパワーUSBハブ(今回はiBUFFALO USB2.0ハブ セルフ&バスパワー 4ポート BSH4A01BKを使いました) あるといいものと書きましたが、Raspberry Piの電源は弱いので、安定動作のためにはほぼ必須だと思います。 USBスピーカー(今回は前述のPLANEX USBオーディオ変換アダプタ PL-US35APとLOGICOOL ステレオスピーカー Z120BWを組
年に数回くらい「音声認識でこんなことはできますか」という趣旨のメールが来るので、やりやすいこととやりづらいことを書いておこうと思う。なお、これは現時点での技術状況であり、将来どうなっているかは分からない。 1.大量データは得意。 やはり機械なので、大量のデータの処理には向いている。別に少量のデータでも精度が変わることはないが、少量のデータなら人間がやった方が精度がいいので音声認識の導入はあまり意味がない。 2.雑音に弱い。 マイクと口の距離が近ければ周りの音はさほど問題にならないが(携帯電話など)、距離が離れると相対的に周りの音が大きくなるので精度が落ちる。ただし、雑音の種類が分かっている場合には(車の走行音など)、事前に準備ができるため、そこまでひどく精度が落ちることはない。 3.話し手が分かっていると助かる。 機械にとって別の人の声は同じことを喋っていても別の音なので、人による声の違い
@natsun_happy さんによる ARC解説シリーズ。今回は Outletの話。 [iOS5] ARC : Outletにはweakプロパティを使おう - iOS 開発ブログ Natsu's note ざっくりまとめるとポイントは2点 通常 UIB...
以前のエントリーの続きになります。今回はAmazon Echoの音声認識を使用してNode-REDの処理を行います。 Node-REDでAmazon Echoを使用するノードは実は80番ポートでしか待機ができないようになっています(昔は別ポートでもできたみたいな感じ?)そのため、ポート80を別のプロセスで使用していると使用できないという状況のようです。そのため、もし80番ポートを使用しているプロセスが既にあるようであれば、そちらの使用ポートを変更することが妥当かと思います。(最近はhttpsでなければ公開できないことが多いですが、ローカルのプログラムでは割とhttpをつかっていることもあるのでそのための対応と思ってください。) 以下のエントリも参考にさせていただいております。 参考 AmazonEchoからRaspberryPiのコマンドを実行する(node-red-contrib-ama
印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 人間のように音声を理解する音声認識製品の開発でAmazon、Apple、Google、IBMなどと競合するMicrosoftが、音声認識の誤り率の低さで世界記録を達成したと発表した。 Microsoftによると、Microsoft Researchの音声科学者は業界標準の評価の下で、単語誤り率(WER)6.3%を記録したという。利用したのは、将来的に「Cortana」を強化する音声認識技術だ。 これまで記録を保持していたのはIBMの「Watson」チームで、WERは6.9%だった。IBMは2015年に達成した8%という記録を更新したばかりだった。 MicrosoftとIBMは、米国時間9月12日までサンフランシスコで開催されたカンファレ
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。音声認識技術の研究開発を担当している篠原です。 皆さんはスマートフォンで音声による検索を使ったことがあるでしょうか? 音声認識は入力された音声をテキストに変換する技術で音声検索などさまざまなアプリで使われています。最近「End-to-End 音声認識」というニューラルネットに基づく革新的な方式が登場して驚くようなスピードで技術が発展しているところです。この記事ではヤフーにおける End-to-End 音声認識の研究成果の一例として「最小遅延学習」と呼ばれるレスポンス高速化の新技術を紹介します。 なお、本研究は米国カーネギーメロン大学の渡部晋治准教授との共同研究として実施したものです。また、この技術の詳細は先週開催された
OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を非エンジニアやMacユーザでも簡単に使え、GoogleSheetsやExcelに取り込めるGoogleColaboratoryをつくったPythonwhisperOpenAIGoogleColaboratory 概要 OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を発表しました。 ただこのモデルはGPUを使うので、精度を試したりするのに気軽に実行できません。 特にGPUを積んでいるWindows機がないような、Macユーザは中々このモデルのすごさを自分の使いたい音声や動画で試せないのはもったいないと思います。 また個人的に、このWhisperの音声認識の恩恵を受けれるのは、非エンジニアで議事録などを書かれている方だと考えています。 そこで公式のGoogleColabora
by Jason Lander スマートフォンがちょっと離れたところにあっても、また周囲で雑音がしていたとしても、人間が認識できないコマンドを送り込んで音声認識アシスタントを勝手に動かすことが可能であるということがわかりました。 Hidden Voice Commands http://www.hiddenvoicecommands.com/ どういうことなのかというのは、以下のデモ映像を見ればわかります。 Demo VoiceHack - YouTube スピーカーから10.1フィート(約3.08m)離れたところにスマートフォンを置きます。 そして、人間の声をコンピューター加工したコマンドを聞かせると、人間が聞いても何と言っているかわからないのですが、スマートフォンはコマンドの内容を認識して実行します。ここでは、雑音なしで「XKCD.comを開いて」というコマンドを実行しています。 後半
「音声認識メールクラウド」の精度があまりにも高くて驚いた @ika621 です。 「音声認識メールクラウド」というアプリは音声をテキストにしてくれるアプリです。このアプリが登場した当時は、精度が低かったので使えたものではありませんでした。 しかし、再び使用してみたら予想以上に精度が高くなっていたので、これは便利だなと感じました。PostEverと組み合わせて使うことで簡単なログを記録することが出来ます。試験的ですが裏Tweet的に使っています。 参考:音声認識メールクラウドとPostEverを利用したライフログ記録 ~ 自動で内容をコピー機能はすばらしい – atsquareのデジタルな生活 音声認識メール クラウド カテゴリ: ユーティリティ, ソーシャルネットワーキング 販売元: Advanced Media,Inc – Advanced Media,Inc(サイズ: 3.8 MB)
3つの要点 ✔️ TransformerとCNNを組み合わせたモデル,Conformerを音声認識に応用 ✔️ 畳み込みモジュールがConformerにおいて最も重要であることがわかった ✔️ 既存の音声認識研究の中でも最高の精度を確認 Conformer: Convolution-augmented Transformer for Speech Recognition written by Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang (Submitted on 16 May 2020) Comments: Accepted at Interspeech20
この記事は NTTコミュニケーションズ Advent Calendar 2021 の20日目の記事です。 はじめに こんにちは。プラットフォームサービス本部アプリケーションサービス部の是松です。 NTTコミュニケーションズでは自然言語処理、機械翻訳、音声認識・合成、要約、映像解析などのAI関連技術を活用した法人向けサービスを提供しています。(COTOHA シリーズ) NTTコミュニケーションズがこのようなAI関連技術を活用したサービスを展開する強みとして、 NTT研究所の研究成果が利用可能であること 自社の他サービスを利用しているお客様に対してシナジーのあるサービスを提案できること この2点が挙げられると思います。 実際に、私が担当している COTOHA Voice Insight は 通話音声テキスト化によってコンタクトセンターの業務効率化・高度化を実現するサービスなのですが、 NTT研
ヒト「脳オルガノイド」をコンピューター・チップに接続し、単純な計算タスクを実行できるシステムが開発された。新しいバイオ・コンピューターの可能性を示している。 by Abdullahi Tsanni2023.12.12 24 10 米研究チームが、シャーレの中で培養されたヒトの脳細胞の塊である「脳オルガノイド」を電子チップに接続し、簡単な計算タスクを実行することに成功。新たな研究成果として発表した。 発表したのは、インディアナ大学ブルーミントン校のフェン・グオ准教授らの研究チーム。幹細胞から作製した脳オルガノイドをコンピューター・チップに取り付けた「ブレイノウェア(Brainoware)」と呼ばれるセットアップを構築。人工知能(AI)ツールに接続した。研究チームは、このハイブリッド・システムが、情報を処理、学習、記憶できることを明らかにした。初歩的な音声認識の実行にも成功したという。12月1
いきさつ 少し前にタ○ラト○ーのおもちゃハッカソンに申し込んだのですが、抽選に受からず。。。 「ならば自力でOH○NASの対抗馬を作ってやる!」と思いたったのがきっかけで、簡易会話ロボをRasタソを作ってみました。笑 (*実際の人物や団体等とは一切関係ありません) やりたい事 ・マイクからの音声入力に対して、合成音声で返答をする O○aN○Sもどきの作成 スペック ・Raspberry Pi B+ ・raspbian 8 Jessie ・SANWA SUPPLY MM-MCUSB16 USBマイクロホン ・イヤフォンはiphoneのやつ 役者 ・requests (PythonのHTTPライブラリ) ・pyaudio (pythonでマイク入力) ・AquesTalkPi (合成音声) ・docomo雑談API (会話するためのAPI) ・docomo音声認識API (音声を認識してTEX
Raspberry Piにマイクを付けて話した日本語を認識させたいと思います。 いくつか参考になるサイトがありましたが、自分の環境と微妙に異なってはまっていたのでまとめておきます。 参考サイト 日本語音声認識 RaspberryPIにUSBマイクで音声入力 Raspberry Piで録音再生 Raspberry PiでJuliusを使った音声認識(1) ALSA で snd_pcm_dmix_open が unable to open slave になる場合 Can't set default sound device with ALSA [SOLVED] 使った機器 Raspberry Pi 2 Model B SANWA SUPPLY MM-MCUSB16 USBマイクロホン ELECOM USB3.0ハブ ACアダプター付き セルフパワー サイドポート付き 4ポート ブラック U3H
どうも、クラゲです。 Web Speech APIを使って途切れない音声認識を行います! 目次 [TOC] デモ体験 実際のデモが体験できるページはこちら https://monomonotech.jp/kurage/assets/scripts/iot/webspeechapi_voice_recognition この「途切れない」というのが今回のミソです。Web Speech APIはJavaScriptで非常に簡単にプログラミングできますが、数秒経つと音声認識が停止してしまいます。そうなると手動で再開しなければいけなかったり、再開の度にマイクの使用許可を聞かれて毎回タップするのが面倒です。 そんな面倒な手間を解放し、途切れずに長時間、音声認識を続ける技を紹介します! コツ HTTPSサーバーに置くこと ローカルやHTTPサーバーだと動作しなかったり、マイクの使用許可を毎回許可する必要
はじめに 本記事は、東京 Node 学園祭 2012 の LT 枠 - 6番目で発表したデモ内容の紹介になります。スライドは以下になります。 (2012/11/25 20:57 貼り間違えたので修正) 構成としては、発表で紹介した Julius の Node.js アドオンから得た音声認識結果を Socket.io 経由でクライアント(ブラウザ)へ送り、mmd.gl.enchant.js で表示しているミクさんを動かす、という形になります。イメージとしては、MMDAgent みたいなことが出来る感じです。 デモ内容 話しかけると考えこんで、解釈するとお辞儀しながらふきだしで解釈した内容を表示してくれるようにしています。 リモコンとつなぎこめば実際に家電が操作されます。 mmd.gl.enchant.js の導入 参考 スモールオメガω - エントランス まず、enchant.js 本家から
現地時間2023年9月20日にバージニア州アーリントンにあるAmazonの第2本社で開催された発表会において、Amazonが音声認識アシスタント・Alexaに生成AIを導入し、スマートスピーカー・Echoファミリー全体のエクスペリエンスを向上させることを発表しました。 Amazon previews the future of Alexa with generative AI https://www.aboutamazon.com/news/devices/amazon-alexa-generative-ai AmazonはAlexaを2014年に発表して以来、「Alexaとの会話を、他の人と話すのと同じぐらい自然にすること」を目指して継続的な改善を続けてきました。生成AIの急速な進化により、目標はもはや手の届くところまで来ているとのこと。 Amazonでは、Alexaとの会話を自然なもの
OpenAIの音声認識モデルWhisperを利用し音声をテキストへ変換してくれるMacアプリ「AI Transcription」がリリースされています。詳細は以下から。 ChatGPTなどを開発するOpenAIは2022年09月、Web上から収集した68万時間にも及ぶ音声データを利用し学習させた自動音声認識(ASR: Automated speech recognition)システム「Whisper」を公開しましたが、このWisperを利用し、音声をテキストへ変換してくっるMacアプリ「AI Transcription」が新たにリリースされています。 Turn audio into text! AI Transcription uses advanced Speech Recognition to transcribe your audio and video files in a bli
TL;DR🤩 音声認識器Whisperの認識精度と認識速度について調査 認識精度 英語では論文同様の結果 日本語の認識精度はドメインに依存 baseモデルの推論がドメインにより不安定 ビームサーチの利用により、推論の頑健性が向上 largeモデルのCERはbaseモデルの半分程度 認識速度 baseモデルのRTFはGPUで0.104 largeのRTFは0.408 バッチサイズなどを最適化することで改善 こんにちは。RevCommのリサーチチームでインターンをしている中田亘です。 2022年9月21日にOpenAIからWhisperと呼ばれる音声認識器が一般に公開されました。今回は、Whisperの性能に関して調査を行ったので紹介します。 TL;DR🤩 Whisperとは 実験と結果 実験条件 認識精度 英語でのWER LibriSpeech test-clean test-other
ものづくりが好きで最近よく見ているサイトMaker is You!に、音声に反応するダンボーが掲載されていました。YouTubeにデモがあがっていたので早速見てみると、あまりの可愛さに一発でメロメロになってしまいました。 Raspberry Pi(ラズベリーパイ)とは)。 今回ご紹介するダンボーは、Raspberry Piを利用して作られた「ダンボー型の音声認識システム」になっています。 あまり耳馴染みがないかもしれませんが、「Raspberry Pi」は学校教育用に開発された小型のコンピュータです。 「Raspberry Pi」自体にはメモリ・CPU・USBなどが搭載されており、様々なパーツと組み合わせることで自作のパソコンやデジカメ、携帯電話、「R2-D2」なんかも作ることができるようです。 小型PC「ラズベリー・パイ」で自作した神作品10選の猛者たちが天才過ぎる! | APPGIGA
音声認識技術でポッドキャストを全文検索する Podcastle が正式公開! 2008-06-16-5 [WebTool][PodCasting][News] 2006年の12月に非公式公開(?)された Podcastle(ポッドキャッスル)。 音声認識技術であちこちで公開されている PodCast をテキスト化し、 それに対して全文検索するというサービスです。 音声認識誤りをみんなで訂正できるってのも面白い試みです。 - Podcastle http://podcastle.jp/ - Podcastleとは - Podcastle.jp http://podcastle.jp/info/ - PodCastle:ポッドキャストをテキストで検索,閲覧, 編集できるソーシャルアノテーションシステム http://www.wiss.org/WISS2006Proceedings/papers
大きさは思ったより小さい 恒例のAmazonの大きすぎるダンボールに入って届きました 毎回、内容量の割にはダンボールがでかすぎますよね。。。 echo DotはAmazonのAIスピーカーシリーズEchoのうちの一つです 一番ちっさくてやすいやつです まぁ一番小さいとわかってて買ったんですが、 それでも届いてから思いました・・・ めっちゃ小さい!( ・∇・) だいたい、直径は 350ml 缶より一回り大きいぐらいです 片手に収まりますし、ポケットにも入ります こんな小さいんですね・・・・ 付属品はシンプル 付属品は本体と、充電機類と非常にシンプルです 説明書はありません ちょっとした紙に、ボタンの位置とセットアップの解説だけしてあります あとは全部、ネットやアプリで説明されます まずすること購入したらすぐ使えるわけじゃなくて、セットアップがいくつか必要でした 充電するスマホアプリから設定ス
COTOHA APIのラインナップに音声認識をリリースしました!! しかし,いざAPIを動かそうと思っても,音声データは画像・テキストと比べて前処理が面倒... そこで本記事では,実際にCOTOHA音声認識の中の人がPythonで音声認識APIを実行する方法を説明していきます!! COTOHA APIとは NTTが長年頑張って得たノウハウを詰め込んだ、NTTコミュニケーションズが提供する自然言語処理のAPIサービスになります!! サービスの詳細 はこちらを見て頂くとして、これまでは構文解析やユーザ属性推定などのテキスト解析のサービスを提供していました. Python初心者 COTOHA API 初心者 自然言語処理を簡単に扱えると噂のCOTOHA APIをPythonで使ってみたで、テキスト解析で遊んでもらってからこの記事を見て頂くことをオススメします!! さて本題に入りましょう!! 今
6月2日、AWS Summitの2日目のDeveloper Conference会場では、音声認識プラットフォームである「Amazon Echo&Alexa」のセッションが行なわれた。日本で未発売のAmazon Echoだが、開発者の関心は高く、音声と連携したサービスの新時代を予感させた。 Amazonは音声こそが将来と信じている 今回、Amazon Echo&Alexaのセッションを担当するAVS(Alexa Voice Services)のシニアエバンジェリストであるアミット・ジョトワニ氏は、会場に対して「Hello Alexa!」を呼びかける。カウントダウンと共に会場がAlexaを呼び出すと、Alexaは英語で「こんにちは。会場のみなさんは楽しそうですね」と挨拶する。 ジョトワニ氏は、まず「タッチインターフェイスの時代は過去の時代のものになる」という記事を引用し、音声インターフェイス
新しく2種類のAmazon Fire TVが2017年に新しくリリースされる、とAFTVnewsが報じています。 Exclusive: These are the two new Amazon Fire TV models being released in 2017 | AFTVnews http://www.aftvnews.com/exclusive-these-are-the-two-new-amazon-fire-tv-models-being-released-in-2017/ Amazon set to launch new 4K Fire TV dongle and set-top box with built-in Alexa | Android Central https://www.androidcentral.com/amazon-set-launch-new-4k
パナソニック システムソリューションズ ジャパンは10月28日、音声処理・音声認識技術を活用した文字起こしサービス「P-VoT(ピーボット)」を正式に提供開始したと発表した。マスメディア向けに商用サービスとして提供する。サービス開始日は11月13日。価格は1コンテンツあたりの時間長を基準とした従量制で10秒20円になる。 動画・音声ファイルをパナソニックのクラウドサービスにアップロードするだけで、文字起こしを自動化でき、文字起こし作業を、約3分の1の時間に削減できるとしている。 多層のニューラルネットワークを用いた高精度音声認識により、幅広いジャンルの文字起こしに対応。インターネットに接続したウェブブラウザからのアップロードで、テキストの修正作業までができ、特別な機器・設備は不要としている。 編集画面では文字をクリックすると、文字起こしした音声の位置から頭出し、プレビュー再生を開始。再生中
Java Speech APIとは Java Speech API(以下、JSAPI)はJavaアプリケーションに音声認識や音声合成の機能を組み込むためのAPIである。Java Speech API自身はJCPがスタートする前に発表されたのでJSRは存在せず、Sun Microsystemsのサイト上でその仕様が公開されている。 JSAPIを使用することで、Javaプログラムで音声の認識や合成を行うことができるようになる。たとえば、合成音声によってテキストを読み上げるというような処理の実装が容易に行える。 JSAPIの代表的な実装としてはオープンソースで開発されているFreeTTSがある。もっとも新しいバージョンは1.2.1で、商用の音声認識/合成ツールのような高度な機能は有していないが、JSAPIを試すには十分な機能を提供してくれる。今回はまずこのFreeTTSを用いて、JSAPIの音声
精度よしっ! 音声認識に特化したiPhoneアプリ「DRAGON Dictation」2011.02.08 11:00Sponsored 音声認識なめてました。 この「Dragon Dictation」というアプリ、iPhone内蔵のマイクに向かって話しかけるだけで、音声認識によってメールを送ったり、Facebookやtwitterへつぶやくことが出来るんです! 日本語に対応したのは最近なんですが、実は海外ではけっこう普及していて、そこそこ知られているアプリだそうな。基本操作は、画面タップ→音声認識→修正→投稿。これだけです。 というわけで、早速外に出て、いろんなシチュエーションで「Dragon Dictation」を試してきました。まずは人、人、人だらけ。雑踏極める渋谷の街中で。 待ち合わせ場所に着いた時、「ハチ公前なう!」って喋れば、「Dragon Dictation」がしっかり認識し
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く