並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 1292件

新着順 人気順

音声認識の検索結果161 - 200 件 / 1292件

  • 音声認識エンジンはどう選ぶ?主要な4つを比較検証してみた | Ledge.ai

    サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

      音声認識エンジンはどう選ぶ?主要な4つを比較検証してみた | Ledge.ai
    • Siriの開発者が複合的な質問を理解できる新しい音声認識AIを開発中

      By Photo Giddy iPhone 4Sから搭載されている「Siri」は、話しかけるだけでメールを送ったり、目覚ましをセットしてくれたりする音声認識アプリケーションです。そんなSiri誕生に携わった開発者たちが、「複合的な質問を理解する」「ほぼ全てのアプリを実行可能」などSiriをはるかに越えるAIを備えた新しい音声認識システム「Viv」を開発しています。 Siri’s Inventors Are Building a Radical New AI That Does Anything You Ask | Enterprise | WIRED http://www.wired.com/2014/08/viv/ Siri’s founders are building a new AI assistant | The Verge http://www.theverge.com/201

        Siriの開発者が複合的な質問を理解できる新しい音声認識AIを開発中
      • 音声認識でハンズフリーレストラン検索「声探」 : 僕は発展途上技術者

        ちょっと今までにない一風変わったサービスを作ってみました。 Skype を使って、声で HotPepper.jp のレストラン検索ができるハンズフリーな Web サービス、「声探」です。「食い探」に続く○探シリーズ第二弾。 マイクに向かって駅名を言うと、近くのレストランを検索してブラウザに表示します。 音声アプリケーションが英語版のため、ガイダンスが英語ですが、山手線の駅名を認識できるように作ってみました。 実際にどんな感じか見てもらったほうが早いので動画のデモを作りました。 「渋谷」と言えば、渋谷に近いレストランを表示します。↓ 次の結果を出したり、前に戻る、再検索する、といったアクションも声だけでできます。キーボードに触る必要がない、というわけで「ハンズフリーWebサービス」。 「Next」と言えば、次の検索結果を表示します。キーボードには触っていません。↓ 実用性はまだまだいまいちで

        • 全てのフォームに音声認識機能を! | スラド

          以前/.Jのストーリーで紹介されていたnisimura氏開発の w3voice ですが、精力的に開発を進められているようで、新たな機能が続々と追加されています。 今度は、たった一行を追加するだけで自分のWebサイトに音声認識/音声入力の機能が追加できる JavaScriptライブラリw3voiceIM.jsが公開されました。認識精度を高めるための実験でもあるので会話は全て録音され、分析・調査の対象となるとのことですが、遊ぶ分には楽しく遊べそうです。 そのうち、すらどの日記もおしゃべりするだけで書けるようになったりするのでしょうか。

          • Devel/電子工作/RaspberryPi/日本語音声認識 - cubic9.com

            USBマイク(今回はPLANEX USBオーディオ変換アダプタ PL-US35APとSANWA SUPPLY フラット型PCマイク MM-MC23を組み合わせました) PL-US35APのチップはC-Media製のCM119Aで、多くのLinuxディストリビューションで動作実績があります。 今回は上記のようにUSBオーディオアダプタを使いましたが、音声認識のみなら、USBマイクを使ってもいいと思います。 セルフパワーUSBハブ(今回はiBUFFALO USB2.0ハブ セルフ&バスパワー 4ポート BSH4A01BKを使いました) あるといいものと書きましたが、Raspberry Piの電源は弱いので、安定動作のためにはほぼ必須だと思います。 USBスピーカー(今回は前述のPLANEX USBオーディオ変換アダプタ PL-US35APとLOGICOOL ステレオスピーカー Z120BWを組

            • 音声認識の得意なことと苦手なこと。 - 2011-11-11 - IHARA Note

              年に数回くらい「音声認識でこんなことはできますか」という趣旨のメールが来るので、やりやすいこととやりづらいことを書いておこうと思う。なお、これは現時点での技術状況であり、将来どうなっているかは分からない。 1.大量データは得意。 やはり機械なので、大量のデータの処理には向いている。別に少量のデータでも精度が変わることはないが、少量のデータなら人間がやった方が精度がいいので音声認識の導入はあまり意味がない。 2.雑音に弱い。 マイクと口の距離が近ければ周りの音はさほど問題にならないが(携帯電話など)、距離が離れると相対的に周りの音が大きくなるので精度が落ちる。ただし、雑音の種類が分かっている場合には(車の走行音など)、事前に準備ができるため、そこまでひどく精度が落ちることはない。 3.話し手が分かっていると助かる。 機械にとって別の人の声は同じことを喋っていても別の音なので、人による声の違い

                音声認識の得意なことと苦手なこと。 - 2011-11-11 - IHARA Note
              • iOS 5.1 から利用できるようになった音声認識のAPI(非公開)を使う

                @natsun_happy さんによる ARC解説シリーズ。今回は Outletの話。 [iOS5] ARC : Outletにはweakプロパティを使おう - iOS 開発ブログ Natsu's note ざっくりまとめるとポイントは2点 通常 UIB...

                • 【RaspberryPi】Amazon Echoを使った音声認識でNode-REDの処理を行う - uepon日々の備忘録

                  以前のエントリーの続きになります。今回はAmazon Echoの音声認識を使用してNode-REDの処理を行います。 Node-REDでAmazon Echoを使用するノードは実は80番ポートでしか待機ができないようになっています(昔は別ポートでもできたみたいな感じ?)そのため、ポート80を別のプロセスで使用していると使用できないという状況のようです。そのため、もし80番ポートを使用しているプロセスが既にあるようであれば、そちらの使用ポートを変更することが妥当かと思います。(最近はhttpsでなければ公開できないことが多いですが、ローカルのプログラムでは割とhttpをつかっていることもあるのでそのための対応と思ってください。) 以下のエントリも参考にさせていただいております。 参考 AmazonEchoからRaspberryPiのコマンドを実行する(node-red-contrib-ama

                    【RaspberryPi】Amazon Echoを使った音声認識でNode-REDの処理を行う - uepon日々の備忘録
                  • マイクロソフト、音声認識の単語誤り率で新記録--Microsoft Research報告

                    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 人間のように音声を理解する音声認識製品の開発でAmazon、Apple、Google、IBMなどと競合するMicrosoftが、音声認識の誤り率の低さで世界記録を達成したと発表した。 Microsoftによると、Microsoft Researchの音声科学者は業界標準の評価の下で、単語誤り率(WER)6.3%を記録したという。利用したのは、将来的に「Cortana」を強化する音声認識技術だ。 これまで記録を保持していたのはIBMの「Watson」チームで、WERは6.9%だった。IBMは2015年に達成した8%という記録を更新したばかりだった。 MicrosoftとIBMは、米国時間9月12日までサンフランシスコで開催されたカンファレ

                      マイクロソフト、音声認識の単語誤り率で新記録--Microsoft Research報告
                    • End-to-End 音声認識のレスポンスを高速化する最小遅延学習

                      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。音声認識技術の研究開発を担当している篠原です。 皆さんはスマートフォンで音声による検索を使ったことがあるでしょうか? 音声認識は入力された音声をテキストに変換する技術で音声検索などさまざまなアプリで使われています。最近「End-to-End 音声認識」というニューラルネットに基づく革新的な方式が登場して驚くようなスピードで技術が発展しているところです。この記事ではヤフーにおける End-to-End 音声認識の研究成果の一例として「最小遅延学習」と呼ばれるレスポンス高速化の新技術を紹介します。 なお、本研究は米国カーネギーメロン大学の渡部晋治准教授との共同研究として実施したものです。また、この技術の詳細は先週開催された

                        End-to-End 音声認識のレスポンスを高速化する最小遅延学習
                      • スマート音声リモコン、音声認識エンジンのライセンス切れでサービス提供終了を予告【やじうまWatch】

                          スマート音声リモコン、音声認識エンジンのライセンス切れでサービス提供終了を予告【やじうまWatch】
                        • OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を非エンジニアやMacユーザでも簡単に使え、GoogleSheetsやExcelに取り込めるGoogleColaboratoryをつくった - Qiita

                          OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を非エンジニアやMacユーザでも簡単に使え、GoogleSheetsやExcelに取り込めるGoogleColaboratoryをつくったPythonwhisperOpenAIGoogleColaboratory 概要 OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を発表しました。 ただこのモデルはGPUを使うので、精度を試したりするのに気軽に実行できません。 特にGPUを積んでいるWindows機がないような、Macユーザは中々このモデルのすごさを自分の使いたい音声や動画で試せないのはもったいないと思います。 また個人的に、このWhisperの音声認識の恩恵を受けれるのは、非エンジニアで議事録などを書かれている方だと考えています。 そこで公式のGoogleColabora

                            OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を非エンジニアやMacユーザでも簡単に使え、GoogleSheetsやExcelに取り込めるGoogleColaboratoryをつくった - Qiita
                          • 【やじうまPC Watch】 ラズパイ雑誌「MAGPI 57」の付録に”自作人工知能”用のGoogle音声認識キット

                              【やじうまPC Watch】 ラズパイ雑誌「MAGPI 57」の付録に”自作人工知能”用のGoogle音声認識キット
                            • 音声認識でゆっくりとVOICEROIDに喋らせる! NAMAROID

                              音声認識した内容をSofTalkやVOICEROIDに送って発音させるツールです。※現在はβ版となっています。ダウンロード ar944481使い方 ar944599アニメーションファイルの仕様 ar946524おまけ ar948658※このツールを使って生放送もしています co3112651

                                音声認識でゆっくりとVOICEROIDに喋らせる! NAMAROID
                              • SiriやGoogle Nowなどの音声認識アシスタントは人間が認識できないコマンドでも操作できる

                                by Jason Lander スマートフォンがちょっと離れたところにあっても、また周囲で雑音がしていたとしても、人間が認識できないコマンドを送り込んで音声認識アシスタントを勝手に動かすことが可能であるということがわかりました。 Hidden Voice Commands http://www.hiddenvoicecommands.com/ どういうことなのかというのは、以下のデモ映像を見ればわかります。 Demo VoiceHack - YouTube スピーカーから10.1フィート(約3.08m)離れたところにスマートフォンを置きます。 そして、人間の声をコンピューター加工したコマンドを聞かせると、人間が聞いても何と言っているかわからないのですが、スマートフォンはコマンドの内容を認識して実行します。ここでは、雑音なしで「XKCD.comを開いて」というコマンドを実行しています。 後半

                                  SiriやGoogle Nowなどの音声認識アシスタントは人間が認識できないコマンドでも操作できる
                                • 音声認識メールクラウドとPostEverを組み合わせて簡単にライフログを記録

                                  「音声認識メールクラウド」の精度があまりにも高くて驚いた @ika621 です。 「音声認識メールクラウド」というアプリは音声をテキストにしてくれるアプリです。このアプリが登場した当時は、精度が低かったので使えたものではありませんでした。 しかし、再び使用してみたら予想以上に精度が高くなっていたので、これは便利だなと感じました。PostEverと組み合わせて使うことで簡単なログを記録することが出来ます。試験的ですが裏Tweet的に使っています。 参考:音声認識メールクラウドとPostEverを利用したライフログ記録 ~ 自動で内容をコピー機能はすばらしい – atsquareのデジタルな生活 音声認識メール クラウド カテゴリ: ユーティリティ, ソーシャルネットワーキング 販売元: Advanced Media,Inc – Advanced Media,Inc(サイズ: 3.8 MB)

                                    音声認識メールクラウドとPostEverを組み合わせて簡単にライフログを記録
                                  • Conformer:Transformerを音声認識に応用!? GoogleによるTransformer×CNNが凄すぎる!!

                                    3つの要点 ✔️ TransformerとCNNを組み合わせたモデル,Conformerを音声認識に応用 ✔️ 畳み込みモジュールがConformerにおいて最も重要であることがわかった ✔️ 既存の音声認識研究の中でも最高の精度を確認 Conformer: Convolution-augmented Transformer for Speech Recognition written by Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang (Submitted on 16 May 2020) Comments: Accepted at Interspeech20

                                      Conformer:Transformerを音声認識に応用!? GoogleによるTransformer×CNNが凄すぎる!!
                                    • wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう - NTT Communications Engineers' Blog

                                      この記事は NTTコミュニケーションズ Advent Calendar 2021 の20日目の記事です。 はじめに こんにちは。プラットフォームサービス本部アプリケーションサービス部の是松です。 NTTコミュニケーションズでは自然言語処理、機械翻訳、音声認識・合成、要約、映像解析などのAI関連技術を活用した法人向けサービスを提供しています。(COTOHA シリーズ) NTTコミュニケーションズがこのようなAI関連技術を活用したサービスを展開する強みとして、 NTT研究所の研究成果が利用可能であること 自社の他サービスを利用しているお客様に対してシナジーのあるサービスを提案できること この2点が挙げられると思います。 実際に、私が担当している COTOHA Voice Insight は 通話音声テキスト化によってコンタクトセンターの業務効率化・高度化を実現するサービスなのですが、 NTT研

                                        wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう - NTT Communications Engineers' Blog
                                      • 脳オルガノイドをコンピューターに接続、日本語の音声認識に成功

                                        ヒト「脳オルガノイド」をコンピューター・チップに接続し、単純な計算タスクを実行できるシステムが開発された。新しいバイオ・コンピューターの可能性を示している。 by Abdullahi Tsanni2023.12.12 24 10 米研究チームが、シャーレの中で培養されたヒトの脳細胞の塊である「脳オルガノイド」を電子チップに接続し、簡単な計算タスクを実行することに成功。新たな研究成果として発表した。 発表したのは、インディアナ大学ブルーミントン校のフェン・グオ准教授らの研究チーム。幹細胞から作製した脳オルガノイドをコンピューター・チップに取り付けた「ブレイノウェア(Brainoware)」と呼ばれるセットアップを構築。人工知能(AI)ツールに接続した。研究チームは、このハイブリッド・システムが、情報を処理、学習、記憶できることを明らかにした。初歩的な音声認識の実行にも成功したという。12月1

                                          脳オルガノイドをコンピューターに接続、日本語の音声認識に成功
                                        • 簡単にできる!音声認識と音声合成を使ってRaspberrypiと会話 - Qiita

                                          いきさつ 少し前にタ○ラト○ーのおもちゃハッカソンに申し込んだのですが、抽選に受からず。。。 「ならば自力でOH○NASの対抗馬を作ってやる!」と思いたったのがきっかけで、簡易会話ロボをRasタソを作ってみました。笑 (*実際の人物や団体等とは一切関係ありません) やりたい事 ・マイクからの音声入力に対して、合成音声で返答をする O○aN○Sもどきの作成 スペック ・Raspberry Pi B+ ・raspbian 8 Jessie ・SANWA SUPPLY MM-MCUSB16 USBマイクロホン ・イヤフォンはiphoneのやつ 役者 ・requests (PythonのHTTPライブラリ) ・pyaudio (pythonでマイク入力) ・AquesTalkPi (合成音声) ・docomo雑談API (会話するためのAPI) ・docomo音声認識API (音声を認識してTEX

                                            簡単にできる!音声認識と音声合成を使ってRaspberrypiと会話 - Qiita
                                          • 「Skype」に「ほんやくコンニャク」機能? 音声認識+自然言語処理で異言語対話を容易に/話した言葉を即座に翻訳して自分の声とテキストで伝達。2023年にリリースへ

                                              「Skype」に「ほんやくコンニャク」機能? 音声認識+自然言語処理で異言語対話を容易に/話した言葉を即座に翻訳して自分の声とテキストで伝達。2023年にリリースへ
                                            • Raspberry Piで音声認識 - Qiita

                                              Raspberry Piにマイクを付けて話した日本語を認識させたいと思います。 いくつか参考になるサイトがありましたが、自分の環境と微妙に異なってはまっていたのでまとめておきます。 参考サイト 日本語音声認識 RaspberryPIにUSBマイクで音声入力 Raspberry Piで録音再生 Raspberry PiでJuliusを使った音声認識(1) ALSA で snd_pcm_dmix_open が unable to open slave になる場合 Can't set default sound device with ALSA [SOLVED] 使った機器 Raspberry Pi 2 Model B SANWA SUPPLY MM-MCUSB16 USBマイクロホン ELECOM USB3.0ハブ ACアダプター付き セルフパワー サイドポート付き 4ポート ブラック U3H

                                                Raspberry Piで音声認識 - Qiita
                                              • Web Speech APIで途切れない音声認識 クラゲのIoTテクノロジー

                                                どうも、クラゲです。 Web Speech APIを使って途切れない音声認識を行います! 目次 [TOC] デモ体験 実際のデモが体験できるページはこちら https://monomonotech.jp/kurage/assets/scripts/iot/webspeechapi_voice_recognition この「途切れない」というのが今回のミソです。Web Speech APIはJavaScriptで非常に簡単にプログラミングできますが、数秒経つと音声認識が停止してしまいます。そうなると手動で再開しなければいけなかったり、再開の度にマイクの使用許可を聞かれて毎回タップするのが面倒です。 そんな面倒な手間を解放し、途切れずに長時間、音声認識を続ける技を紹介します! コツ HTTPSサーバーに置くこと ローカルやHTTPサーバーだと動作しなかったり、マイクの使用許可を毎回許可する必要

                                                  Web Speech APIで途切れない音声認識 クラゲのIoTテクノロジー
                                                • mmd.gl.enchant.js を使ってミクさんと音声認識で会話してみた - 凹みTips

                                                  はじめに 本記事は、東京 Node 学園祭 2012 の LT 枠 - 6番目で発表したデモ内容の紹介になります。スライドは以下になります。 (2012/11/25 20:57 貼り間違えたので修正) 構成としては、発表で紹介した Julius の Node.js アドオンから得た音声認識結果を Socket.io 経由でクライアント(ブラウザ)へ送り、mmd.gl.enchant.js で表示しているミクさんを動かす、という形になります。イメージとしては、MMDAgent みたいなことが出来る感じです。 デモ内容 話しかけると考えこんで、解釈するとお辞儀しながらふきだしで解釈した内容を表示してくれるようにしています。 リモコンとつなぎこめば実際に家電が操作されます。 mmd.gl.enchant.js の導入 参考 スモールオメガω - エントランス まず、enchant.js 本家から

                                                    mmd.gl.enchant.js を使ってミクさんと音声認識で会話してみた - 凹みTips
                                                  • Amazonが音声認識アシスタントAlexaに生成AIを導入、複雑なリクエストを処理可能に

                                                    現地時間2023年9月20日にバージニア州アーリントンにあるAmazonの第2本社で開催された発表会において、Amazonが音声認識アシスタント・Alexaに生成AIを導入し、スマートスピーカー・Echoファミリー全体のエクスペリエンスを向上させることを発表しました。 Amazon previews the future of Alexa with generative AI https://www.aboutamazon.com/news/devices/amazon-alexa-generative-ai AmazonはAlexaを2014年に発表して以来、「Alexaとの会話を、他の人と話すのと同じぐらい自然にすること」を目指して継続的な改善を続けてきました。生成AIの急速な進化により、目標はもはや手の届くところまで来ているとのこと。 Amazonでは、Alexaとの会話を自然なもの

                                                      Amazonが音声認識アシスタントAlexaに生成AIを導入、複雑なリクエストを処理可能に
                                                    • 音声認識の誤認識フィルタとしての機械学習

                                                      えんいー\e 6/6 4/6 5/6 2/6 1/6 3/6 Regexp Assemble for PHP 未来の部屋 jubatus や cabochaの勝手 yumリポジトリ 新潟アクセス修飾子 自己紹介 sexyhook テスト用の接合部の作成 なのは完売 とある関数のバトルプログラム perlの魔術的ライブラリ Regexp AssembleをPHPに移植。 正規表現を機械的に作成する。 音声認識を利用して 家電制御を制御する 未来の部屋 11月ぐらいに 勝手yumサイト作りました。 2コマンドだけで、 インストールできます。 こんばんは

                                                        音声認識の誤認識フィルタとしての機械学習
                                                      • OpenAIの音声認識モデルWhisperを利用し、オーディオやビデオファイルの音声をテキストへ変換してくれるMacアプリ「AI Transcription」がリリース。

                                                        OpenAIの音声認識モデルWhisperを利用し音声をテキストへ変換してくれるMacアプリ「AI Transcription」がリリースされています。詳細は以下から。 ChatGPTなどを開発するOpenAIは2022年09月、Web上から収集した68万時間にも及ぶ音声データを利用し学習させた自動音声認識(ASR: Automated speech recognition)システム「Whisper」を公開しましたが、このWisperを利用し、音声をテキストへ変換してくっるMacアプリ「AI Transcription」が新たにリリースされています。 Turn audio into text! AI Transcription uses advanced Speech Recognition to transcribe your audio and video files in a bli

                                                          OpenAIの音声認識モデルWhisperを利用し、オーディオやビデオファイルの音声をテキストへ変換してくれるMacアプリ「AI Transcription」がリリース。
                                                        • 「Teachable Machine」で機械学習した音声認識データを使って「Scratch」でプログラミング ~拡張機能「TM2Scratch」を専用の「Scratch」で【どれ使う?プログラミング教育ツール】

                                                            「Teachable Machine」で機械学習した音声認識データを使って「Scratch」でプログラミング ~拡張機能「TM2Scratch」を専用の「Scratch」で【どれ使う?プログラミング教育ツール】
                                                          • Whisperの音声認識精度および認識速度の検証 - RevComm Tech Blog

                                                            TL;DR🤩 音声認識器Whisperの認識精度と認識速度について調査 認識精度 英語では論文同様の結果 日本語の認識精度はドメインに依存 baseモデルの推論がドメインにより不安定 ビームサーチの利用により、推論の頑健性が向上 largeモデルのCERはbaseモデルの半分程度 認識速度 baseモデルのRTFはGPUで0.104 largeのRTFは0.408 バッチサイズなどを最適化することで改善 こんにちは。RevCommのリサーチチームでインターンをしている中田亘です。 2022年9月21日にOpenAIからWhisperと呼ばれる音声認識器が一般に公開されました。今回は、Whisperの性能に関して調査を行ったので紹介します。 TL;DR🤩 Whisperとは 実験と結果 実験条件 認識精度 英語でのWER LibriSpeech test-clean test-other

                                                              Whisperの音声認識精度および認識速度の検証 - RevComm Tech Blog
                                                            • 身の回りのお世話をしてくれる「音声認識ダンボー」が超かわいい!Raspberry Piでダンボーが動く姿は必見です。 - りんごあつめ

                                                              ものづくりが好きで最近よく見ているサイトMaker is You!に、音声に反応するダンボーが掲載されていました。YouTubeにデモがあがっていたので早速見てみると、あまりの可愛さに一発でメロメロになってしまいました。 Raspberry Pi(ラズベリーパイ)とは)。 今回ご紹介するダンボーは、Raspberry Piを利用して作られた「ダンボー型の音声認識システム」になっています。 あまり耳馴染みがないかもしれませんが、「Raspberry Pi」は学校教育用に開発された小型のコンピュータです。 「Raspberry Pi」自体にはメモリ・CPU・USBなどが搭載されており、様々なパーツと組み合わせることで自作のパソコンやデジカメ、携帯電話、「R2-D2」なんかも作ることができるようです。 小型PC「ラズベリー・パイ」で自作した神作品10選の猛者たちが天才過ぎる! | APPGIGA

                                                                身の回りのお世話をしてくれる「音声認識ダンボー」が超かわいい!Raspberry Piでダンボーが動く姿は必見です。 - りんごあつめ
                                                              • [を] 音声認識技術でポッドキャストを全文検索する Podcastle が正式公開!

                                                                音声認識技術でポッドキャストを全文検索する Podcastle が正式公開! 2008-06-16-5 [WebTool][PodCasting][News] 2006年の12月に非公式公開(?)された Podcastle(ポッドキャッスル)。 音声認識技術であちこちで公開されている PodCast をテキスト化し、 それに対して全文検索するというサービスです。 音声認識誤りをみんなで訂正できるってのも面白い試みです。 - Podcastle http://podcastle.jp/ - Podcastleとは - Podcastle.jp http://podcastle.jp/info/ - PodCastle:ポッドキャストをテキストで検索,閲覧, 編集できるソーシャルアノテーションシステム http://www.wiss.org/WISS2006Proceedings/papers

                                                                  [を] 音声認識技術でポッドキャストを全文検索する Podcastle が正式公開!
                                                                • Amazon echo Dot が届いから一通り遊んでみてレビューするよ!音楽再生はいまいち。使用感、音声認識はばっちし。|ウィリスの宇宙交信記

                                                                  大きさは思ったより小さい 恒例のAmazonの大きすぎるダンボールに入って届きました 毎回、内容量の割にはダンボールがでかすぎますよね。。。 echo DotはAmazonのAIスピーカーシリーズEchoのうちの一つです 一番ちっさくてやすいやつです まぁ一番小さいとわかってて買ったんですが、 それでも届いてから思いました・・・ めっちゃ小さい!( ・∇・) だいたい、直径は 350ml 缶より一回り大きいぐらいです 片手に収まりますし、ポケットにも入ります こんな小さいんですね・・・・ 付属品はシンプル 付属品は本体と、充電機類と非常にシンプルです 説明書はありません ちょっとした紙に、ボタンの位置とセットアップの解説だけしてあります あとは全部、ネットやアプリで説明されます まずすること購入したらすぐ使えるわけじゃなくて、セットアップがいくつか必要でした 充電するスマホアプリから設定ス

                                                                    Amazon echo Dot が届いから一通り遊んでみてレビューするよ!音楽再生はいまいち。使用感、音声認識はばっちし。|ウィリスの宇宙交信記
                                                                  • Deep Learningと音声認識 - Preferred Networks Research & Development

                                                                    西鳥羽です。こんにちは。 本日セミナーで「Deep Learningと音声認識」という内容で(ustreamで公開されているけども)社内セミナーで紹介させて頂きました。タイトルは前回の「Deep Learningと自然言語処理」に被せてます。 Broadcast live streaming video on Ustream こちらがその資料になります。尚、セミナーでは「話し言葉コーパス」とすべきところを「書き言葉コーパス」としてしまっていました。資料では訂正してあります。

                                                                      Deep Learningと音声認識 - Preferred Networks Research & Development
                                                                    • COTOHA音声認識を中の人が仕組みからサンプルまで軽く解説 - Qiita

                                                                      COTOHA APIのラインナップに音声認識をリリースしました!! しかし,いざAPIを動かそうと思っても,音声データは画像・テキストと比べて前処理が面倒... そこで本記事では,実際にCOTOHA音声認識の中の人がPythonで音声認識APIを実行する方法を説明していきます!! COTOHA APIとは NTTが長年頑張って得たノウハウを詰め込んだ、NTTコミュニケーションズが提供する自然言語処理のAPIサービスになります!! サービスの詳細 はこちらを見て頂くとして、これまでは構文解析やユーザ属性推定などのテキスト解析のサービスを提供していました. Python初心者 COTOHA API 初心者 自然言語処理を簡単に扱えると噂のCOTOHA APIをPythonで使ってみたで、テキスト解析で遊んでもらってからこの記事を見て頂くことをオススメします!! さて本題に入りましょう!! 今

                                                                        COTOHA音声認識を中の人が仕組みからサンプルまで軽く解説 - Qiita
                                                                      • 国内販売は?音声認識&人工知能のAlexaで生まれる未来

                                                                        6月2日、AWS Summitの2日目のDeveloper Conference会場では、音声認識プラットフォームである「Amazon Echo&Alexa」のセッションが行なわれた。日本で未発売のAmazon Echoだが、開発者の関心は高く、音声と連携したサービスの新時代を予感させた。 Amazonは音声こそが将来と信じている 今回、Amazon Echo&Alexaのセッションを担当するAVS(Alexa Voice Services)のシニアエバンジェリストであるアミット・ジョトワニ氏は、会場に対して「Hello Alexa!」を呼びかける。カウントダウンと共に会場がAlexaを呼び出すと、Alexaは英語で「こんにちは。会場のみなさんは楽しそうですね」と挨拶する。 ジョトワニ氏は、まず「タッチインターフェイスの時代は過去の時代のものになる」という記事を引用し、音声インターフェイス

                                                                          国内販売は?音声認識&人工知能のAlexaで生まれる未来
                                                                        • Amazonの新型Fire TVは音声認識のAlexa搭載で4K・60fpsにも対応

                                                                          新しく2種類のAmazon Fire TVが2017年に新しくリリースされる、とAFTVnewsが報じています。 Exclusive: These are the two new Amazon Fire TV models being released in 2017 | AFTVnews http://www.aftvnews.com/exclusive-these-are-the-two-new-amazon-fire-tv-models-being-released-in-2017/ Amazon set to launch new 4K Fire TV dongle and set-top box with built-in Alexa | Android Central https://www.androidcentral.com/amazon-set-launch-new-4k

                                                                            Amazonの新型Fire TVは音声認識のAlexa搭載で4K・60fpsにも対応
                                                                          • パナソニック、自動文字起こしサービス「P-VoT」提供開始--音声認識技術を活用

                                                                            パナソニック システムソリューションズ ジャパンは10月28日、音声処理・音声認識技術を活用した文字起こしサービス「P-VoT(ピーボット)」を正式に提供開始したと発表した。マスメディア向けに商用サービスとして提供する。サービス開始日は11月13日。価格は1コンテンツあたりの時間長を基準とした従量制で10秒20円になる。 動画・音声ファイルをパナソニックのクラウドサービスにアップロードするだけで、文字起こしを自動化でき、文字起こし作業を、約3分の1の時間に削減できるとしている。 多層のニューラルネットワークを用いた高精度音声認識により、幅広いジャンルの文字起こしに対応。インターネットに接続したウェブブラウザからのアップロードで、テキストの修正作業までができ、特別な機器・設備は不要としている。 編集画面では文字をクリックすると、文字起こしした音声の位置から頭出し、プレビュー再生を開始。再生中

                                                                              パナソニック、自動文字起こしサービス「P-VoT」提供開始--音声認識技術を活用
                                                                            • 【コラム】Java API、使ってますか? (20) 音声認識/合成のためのAPI - Java Speech APIとJSR 113 | エンタープライズ | マイコミジャーナル

                                                                              Java Speech APIとは Java Speech API(以下、JSAPI)はJavaアプリケーションに音声認識や音声合成の機能を組み込むためのAPIである。Java Speech API自身はJCPがスタートする前に発表されたのでJSRは存在せず、Sun Microsystemsのサイト上でその仕様が公開されている。 JSAPIを使用することで、Javaプログラムで音声の認識や合成を行うことができるようになる。たとえば、合成音声によってテキストを読み上げるというような処理の実装が容易に行える。 JSAPIの代表的な実装としてはオープンソースで開発されているFreeTTSがある。もっとも新しいバージョンは1.2.1で、商用の音声認識/合成ツールのような高度な機能は有していないが、JSAPIを試すには十分な機能を提供してくれる。今回はまずこのFreeTTSを用いて、JSAPIの音声

                                                                              • 精度よしっ! 音声認識に特化したiPhoneアプリ「DRAGON Dictation」

                                                                                精度よしっ! 音声認識に特化したiPhoneアプリ「DRAGON Dictation」2011.02.08 11:00Sponsored 音声認識なめてました。 この「Dragon Dictation」というアプリ、iPhone内蔵のマイクに向かって話しかけるだけで、音声認識によってメールを送ったり、Facebookやtwitterへつぶやくことが出来るんです! 日本語に対応したのは最近なんですが、実は海外ではけっこう普及していて、そこそこ知られているアプリだそうな。基本操作は、画面タップ→音声認識→修正→投稿。これだけです。 というわけで、早速外に出て、いろんなシチュエーションで「Dragon Dictation」を試してきました。まずは人、人、人だらけ。雑踏極める渋谷の街中で。 待ち合わせ場所に着いた時、「ハチ公前なう!」って喋れば、「Dragon Dictation」がしっかり認識し

                                                                                  精度よしっ! 音声認識に特化したiPhoneアプリ「DRAGON Dictation」
                                                                                • 日本Androidの会:知恵を持った音声認識ソフトは、利用者の“アバター”になれるのか?