並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 3671件

新着順 人気順

音声認識の検索結果1 - 40 件 / 3671件

  • 【iOS 5】できることがこんなに! iPhoneの音声認識「Siri」でできる事の一覧 - 拡張現実ライフ

    記事内に広告を含む場合があります。記事内で紹介する商品を購入することで、当サイトに売り上げの一部が還元されることがあります。 Photo by planetc1 こんばんは、@akio0911です。 個別銘柄のPERや時価総額を聞けたり、すべてのアラームを一言で削除したりできる日本語版Siriで使えるコマンドを調べて一覧にまとめてみました。 関連 : 個別銘柄のPERや時価総額も聞ける! iPhoneの音声認識「Siri」で株価を調べてみた 関連 : Siriを使って、すべてのアラームを削除する方法 追記(2015/09/18) iOS 9版を書きました! ⇒ 【使い方】iOS 9のSiriで出来る事268個をまとめてみた 【使い方】iOS 9のSiriで出来る事268個をまとめてみた 連絡先 連絡先の情報を調べる 斉藤君の住所は? 江川さんの電話番号を教えて 妻の誕生日はいつ? 恵美ちゃ

    • MIT、“頭の中でしゃべる”だけで音声認識できるシステム「AlterEgo」

        MIT、“頭の中でしゃべる”だけで音声認識できるシステム「AlterEgo」
      • 大語彙連続音声認識システムJulius

        A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

          大語彙連続音声認識システムJulius
        • Amazonの音声認識「Alexa」は世界のIoTを席巻し「スマートフォンの次」のプラットフォームの覇者となりつつある

          Amazonが販売するスピーカー型の音声アシスタント端末「Amazon Echo」は、Amazonのハードウェア史上最大のヒット作になりました。しかし、本当の大ヒットはEchoではなくその中身である音声認識機能「Alexa」によってこれからもたらされるのであって、Alexaを武器に「スマートフォンの次」のプラットフォームをAmazonが手中に収めつつあるという指摘があります。 Alexa: Amazon’s Operating System – Stratechery by Ben Thompson https://stratechery.com/2017/amazons-operating-system/ Voice Is the Next Big Platform, and Alexa Will Own It https://backchannel.com/voice-is-the-n

            Amazonの音声認識「Alexa」は世界のIoTを席巻し「スマートフォンの次」のプラットフォームの覇者となりつつある
          • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

            株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

              超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
            • 自宅IoTのため家にある電子機器をRaspberry Pi+Homebridge使ってSiriの音声認識で繋ぎまくってみた - karaage. [からあげ]

              2017/09/05 参考サイト追加 2017/03/05 homebridgeを自動起動させる方法に関して追記・参考サイトの追加 自宅IoTに挑戦 引越しを機に家庭内IoTに挑戦しようと思い立ちました。なんせ自宅IoT友の会の部員ですからね! というわけで、「家庭内IoT」とか「おうちハック」と名前が付く記事を見かけるとひたすらブクマし続ける日々を過ごしていました。いい加減、これだけ集めれば十分だろと思いやってみたら、案の定色々ハマってしまったところや、自分なりに気づくところがあったので一度まとめて記事にしてみます。 今回、参考にしたサイトとか参考にしなかったサイトに関しては、本記事の一番最後にまとめています。 家庭内IoTをしてできたこと まずは、どんなことができるようになったかを紹介しようと思います。 暗くて、エアコンのついていない寒い書斎 ここで、例えばぬくぬくしたお布団の中で、i

                自宅IoTのため家にある電子機器をRaspberry Pi+Homebridge使ってSiriの音声認識で繋ぎまくってみた - karaage. [からあげ]
              • Googleマップから電話があり普通に応対したところ、最後の最後で自動電話と分かり、音声認識の進歩に驚いた話

                稲田エイジ|BtoBのWebサイト制作/Web活用支援/コンテンツ支援/HubSpot @inada_h 電話を取ると「Google マップです」と男性から電話。 Google「この電話はGoogle マップの店舗様の営業時間を自動で確認しております」 ぼく「はい」 Google「そちらの営業時間を教えてください」 ぼく「月曜から金曜の9時〜18時です」 Google「土曜日と日曜日の営業時間も教えてください」 ↓ 稲田エイジ|BtoBのWebサイト制作/Web活用支援/コンテンツ支援/HubSpot @inada_h ぼく「土曜と日曜は普通にお休みです」 Google「確認させてください。そちらの営業時間は月曜から金曜の9時〜18時でよろしいでしょうか」 ぼく「はい」 Google「ありがとうございました(電話を切りそうな気配)」 ぼく「待って。参考までに教えてください。Googleが個

                  Googleマップから電話があり普通に応対したところ、最後の最後で自動電話と分かり、音声認識の進歩に驚いた話
                • 超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた

                  東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R

                    超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
                  • 培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応

                    人間の幹細胞を基に作られた脳オルガノイド(ミニ脳)を電子チップに接続した「ブレイノウェア」と呼ばれるセットアップを構築して、簡単な計算タスクを実行することに成功したことが、インディアナ大学ブルーミントン校のエンジニアであるフェン・グオ氏らの研究チームによって報告されました。 Brain organoid reservoir computing for artificial intelligence | Nature Electronics https://www.nature.com/articles/s41928-023-01069-w Scientists Built a Functional Computer With Human Brain Tissue : ScienceAlert https://www.sciencealert.com/scientists-built-a-f

                      培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応
                    • iPhone 4Sの音声認識秘書Siri君に外で用事を言いつけてみる→想像以上にスゴかった(動画)

                      iPhone 4Sの音声認識秘書Siri君に外で用事を言いつけてみる→想像以上にスゴかった(動画)2011.10.12 12:00 satomi あーこれはみんな騒ぐの無理ないな... アップルのデモで見たiPhone 4S新搭載のスマートアシスタント機能「Siri」も神でしたけど、このStuff.tvが外で実際使って撮ったハンズオン見ると、あの神業がデモだけじゃないことがよーくわかります。 ロンドンのコヴェントガーデンのアップルストアで撮った映像ですかね? 後ろの雑音けっこうありますね。NYの地下鉄ほどじゃないけど。でもこのうるさい中でも、ちゃんと話し掛ける通りに反応してます。叫んだりしなくても普通の声でOKみたいですね。 -動画の内容- サイト検索 Siri:ご用件はなんですか? 利用者:Stuff.tvというサイトに行ってくれ Siri:(ピピッ)Stuff.tv検索中(検索結果が出

                        iPhone 4Sの音声認識秘書Siri君に外で用事を言いつけてみる→想像以上にスゴかった(動画)
                      • Node.js で簡単に音声認識できるモジュールを作ってみた #nodefest - 凹みTips

                        はじめに この記事は東京Node学園祭2012 アドベントカレンダーの 23 日目の記事です。 現在、オープンソースの大語彙連続音声認識エンジン Julius を利用して音声による家電操作を行なっているのですが、どんな言葉を認識させるかの文法をゴリゴリ書いたり、コールバックの処理を C++ でゴリゴリ書くのが大変だったので、これらを簡単に実現してくれる Node.js のモジュールをつくってみました。 WEB 関連の話題で扱われることの多い Node.js ですが、C++ でネイティブモジュールを作成することによる Node.js の可能性を感じてもらえれば、と思います。 出来るようになること 以下のように音声認識させる言葉を登録、その文言を Julius が解釈できる形式にコンパイルして、Julius インスタンスを生成、スタートするだけで音声認識が可能になります。 var Julius

                          Node.js で簡単に音声認識できるモジュールを作ってみた #nodefest - 凹みTips
                        • クラウドの音声認識APIで、ライターにとって実用的な「文字起こしサービス」は作れるのか?

                          文章を書く仕事をしている多くのライターが苦手にしている作業のひとつに、かつて「テープ起こし」と呼ばれ、いまは「文字起こし」と呼ばれるものがあります。 これは取材やインタビューを行う際に録音したものを聞き返して、逐一正確に文字にしていく作業なのですが、とにかく単調で集中力が必要です。僕はこの作業が苦手ですぐ集中力が切れてしまうので、たとえば60分のインタビューの文字起こしをしようとすると、だいたいその3倍以上の時間がかかることを覚悟しなければなりません。 ある日、たまたま後輩と一緒にインタビューの仕事をしているときに、後輩が僕にこう言いました「新野さん、もし文字起こしを自動でやってくれるソフトがあったら僕は100万円出してもいいですよ」と。 まったく同感でした。この先ずっと、必要な時にいつでも機械がその場で自動的に文字起こしをしてくれるのなら、100万円ぐらい払ってもいい(僕もたまにクラウド

                            クラウドの音声認識APIで、ライターにとって実用的な「文字起こしサービス」は作れるのか?
                          • 音声認識ソフトを使ってキーボードより速くプログラムをコーディングする実例

                            By Gray 音声認識で文字入力する技術は古くからありますが、まだまだ実用にはほど遠いという印象を持っている場合の方が多いはず。しかし、音声認識入力でキーボードよりも速くプログラミングすることは可能であることが判明しました。 Using Voice to Code Faster than Keyboard http://ergoemacs.org/emacs/using_voice_to_code.html このムービーはプログラミング言語「Python」の世界会議Python Conference 2013におけるプレゼンテーションで撮影されたもので、キーボードによるタイピングよりも速く音声認識入力によりプログラムがコーディングされていく様子がよく分かります。 Using Python to Code by Voice - YouTube 音声入力によるプログラムコーディングの様子をプ

                              音声認識ソフトを使ってキーボードより速くプログラムをコーディングする実例
                            • OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO

                              こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。 個人的には、いくら認識が凄いって言っても、実際日本語は微妙なんじゃないかな…?と思っていたのですが… ですが… … … … おお!?(上記はGitHubにあるWER: Word Error Rateのグラフです) これは!? これは結構良さげな数値を出している!?(たぶん) ってことで元音声屋さんとしては、これは試すしかない!ということで動かしてみました!(投稿は翌日になってしまいましたが…) なお、本記事では論文内容の詳細などには触れませんのでご了承ください。(後日できたらがんばります) いますぐ使いたい人向け 今すぐ使いたい方は、Hugging Faceでブラウザから書き起こしを試

                                OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
                              • 無料なのにココまでできる! 音声認識アプリを使ったテキストおこし(基本編) | ライフハッカー・ジャパン

                                必要なのはノート1冊。時間管理&マインドフルネスが同時にできる「インタースティシャル・ジャーナリング」

                                • フリーの iOS 向け音声認識/音声合成ライブラリ『OpenEars』の使い方 - その後のその後

                                  OpenEars は Politepix 社より提供されているフリーの iOS 向け音声認識/音声合成(Text to Speech, TTS)ライブラリです。 OpenEars 話した言葉を認識したり、入力した文字列を読み上げたり(mac の say コマンドみたいなもの)することができます。 試してみたところ超簡単に使えたので、自分のアプリに OpenEars を導入する方法を紹介します。 音声合成の導入方法 フレームワーク追加、ヘッダインポートといった一般的なライブラリの導入手順をのぞけば、基本的にはメソッドを1つ呼ぶだけで導入できます。 1. フレームワークをプロジェクトに追加 解凍したフォルダ配下にあるFrameworkフォルダごとプロジェクトに追加します。フォルダには OpenEars.framework、Slt.framework ほか、言語モデルや辞書が入っています。 また

                                    フリーの iOS 向け音声認識/音声合成ライブラリ『OpenEars』の使い方 - その後のその後
                                  • Amazon EchoをRaspberry Piのワイヤレス音声認識マイク&スピーカとしてミクさんの声で喋らせたり家電制御(リモコン制御)する方法 - karaage. [からあげ]

                                    Amazon EchoをRaspberry Piのワイヤレス音声認識マイク・スピーカとして使いたい 我が家では、Amazon Echoを壁掛け設置して色々便利に活用しています。 ただ、そんな中。妻から色々不満の声が上がってきました。具体的には以下です。 リマインダでいちいち2回言うのが気にくわない。1回で良い 音声認識で家電(テレビ・リモコン・ルンバ)の制御がしたい からあげDashボタンの音声認識率が悪くてつかえない ここまできたら、Amazon Echo単体では、如何ともしがたいですね。そんなときの強い味方が我らがRaspberry Piです。要はAmazon EchoをRaspberry Piのワイヤレス音声認識マイク&スピーカと使うことができれば何でもできます(ラズパイ脳なのでRaspberry Piなら何でもできると信じている)。 というわけで、今回は色々ネット情報調べて試行錯誤

                                      Amazon EchoをRaspberry Piのワイヤレス音声認識マイク&スピーカとしてミクさんの声で喋らせたり家電制御(リモコン制御)する方法 - karaage. [からあげ]
                                    • Google Document の音声認識入力が思ってたよりすごかった - mizchi's blog

                                      はいえーとあの google の音声入力のテストをやってみてるんですけどこれめっちゃすごいですねなんかここまで認識精度良いと思わなかったあの文字の改行とかそこだけちょっと自分でやんないといけないんですけどそれ以外は全然不満がないですねこれなにかコマンドとかあるのかなやそうでもないか何がやりたいかというと discord でちょっと仕事で使ってみたくてボイスチャットチャンネルに没頭*1参加させて録音させてそのデータを google のドキュメントとして音声で食わせて文字起こしさせればあの会議とかねリモートワークとかですごい便利なんじゃないかなと思って文字認識 api ってちょっと公開されてるかわかんないんだけどこういう api って google あんまりね有料 api 脱退後悔*2しきれなかったりっていうイメージあるんだよねまあ google ドキュメントを使わせるためのインセンティブやっ

                                        Google Document の音声認識入力が思ってたよりすごかった - mizchi's blog
                                      • [速報]「Amazon AI」として、画像認識/テキスト音声変換/音声認識と自然言語理解の3つを発表。AWS re:Invent 2016

                                        Amazon Web Servicesは、ラスベガスで開幕した同社のイベント「AWS re:Invent 2016」で、「Amazon AI」傘下のサービスとして、画像認識、テキスト音声変換、音声認識と自然言語理解の3つを発表しました。

                                          [速報]「Amazon AI」として、画像認識/テキスト音声変換/音声認識と自然言語理解の3つを発表。AWS re:Invent 2016
                                        • サムスン製テレビが会話に聞き耳? 音声認識機能に注意喚起

                                          ニューヨーク(CNNMoney) サムスン製テレビの前では発言に気を付けた方がいい。テレビの前で話した言葉はすべて傍受され、インターネットを介して送信されている――。音声でテレビを操作できる「スマートTV」について、韓国サムスン電子がそんな内容の告知を掲載した。 この告知は同社のスマートTVのプライバシーポリシーに掲載された。「私的な会話や重要な情報を含め、言葉を発すればその情報がデータとして傍受され、音声認識機能を通じて第三者に送信されますのでご注意ください」と呼びかける内容。 サムスンによれば、テレビを音声で操作するためには、発話内容を第三者に送信して音声を文字に変換する必要がある。同社はさらに、この機能を改善する必要があるかどうか見極めるための調査目的でも音声内容を収集しているという。 第三者の社名や、その会社が音声データを録音しているかどうかについて、サムスンから返答はなかった。

                                            サムスン製テレビが会話に聞き耳? 音声認識機能に注意喚起
                                          • 無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ

                                            画像生成AI「DALL・E2」や文章生成AI「GPT-3」「InstructGPT」などを開発するAI研究団体のOpenAIが、2022年9月に高性能な文字起こしAI「Whisper」を発表しました。オープンソースのWhisperはリポジトリが一般公開されており、日本語にも対応しているとのことで、オンライン実行環境のGoogle Colaboratory(Google Colab)やローカルのWindows環境に導入して使ってみました。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper ○目次 ◆Hugging Faceの体験版を使ってみる ◆Google Colabに導入して使ってみる ◆Windows環境に導入してみ

                                              無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ
                                            • 音声認識入門!Web Speech APIを使いChromeブラウザを音声操作するWebアプリ開発術を公開! - paiza times

                                              どうも、まさとらん(@0310lan)です。 みなさんは、音声認識を活用していますか? 例えば、iOSの「Siri」と会話してみたり、Androidなら「OK Google」と喋って検索した経験があるのではないでしょうか? 今回は、このような音声認識を利用し、PCのChromeブラウザに喋りかけることで動作するサンプルデモのチュートリアルをご紹介しようと思います! ■音声認識に必要なAPIとは? まず最初に必要なのが、自分の「声」を音声として認識してくれるAPIなのですが、実はPCのChromeブラウザであれば今すぐJavaScriptから利用できるようになっています。 Web Speech API:ブラウザ対応状況 「Web Speech API」を使うことで、特別なツールをインストールしたり、余計なライブラリを読み込む必要は無いわけです。 ちなみに、このAPIには大きく分けて「音声認識

                                                音声認識入門!Web Speech APIを使いChromeブラウザを音声操作するWebアプリ開発術を公開! - paiza times
                                              • 音声認識のしくみ

                                                音声認識を紹介するページ とにかくここでは、 だらだらと「音声認識」というモノを紹介します。 全体が(ほぼ)このページ一枚に収まっています。 ところどころにリンクがありますが、 そのリンク先には、 難しい話やこぼれ話みたいなものがちょこちょことあります。 ところで、話を簡単にするために、 ちょっと嘘を混ぜています。 そうでないと、ものすごく複雑な話になるので。 音声認識ってなにさ 簡単に言ってしまえば、 人間が喋った声を機械が文字に直すことです。 図で描くとこんな感じです。 左側が音声波形(つまり、声を図に表している)で、 右側がそれをひらがなに直したものです。 左側の音声波形を少し詳しく見てみる 人間は耳で音を聞きますが、 機械はマイクで音を聞きます。 そして、マイクで収録された音をそのまま表示させると、 下のような感じになります。 横軸が時刻で、縦軸が振幅です。 音声というのは、ようす

                                                • [速報]「Hey, GitHub! 」、GitHubが音声認識による操作とコーディングを可能にする実験的機能をプレビュー公開

                                                  [速報]「Hey, GitHub! 」、GitHubが音声認識による操作とコーディングを可能にする実験的機能をプレビュー公開 GitHubは、年次イベント「GitHub Universe 2022」の基調講演で、音声によるGitHubの操作やコーディングを可能にする実験的機能「Hey, GitHub!」をプレビュー公開しました。 'Hey, GitHub!' is an experiment from the GitHub Next team that aims to reduce the need for a keyboard by enabling voice-based interaction with GitHub Copilot. Sign up now to join the waitlist: https://t.co/4YOSuA6cUr — GitHub (@github

                                                    [速報]「Hey, GitHub! 」、GitHubが音声認識による操作とコーディングを可能にする実験的機能をプレビュー公開
                                                  • Haskellで作る超コンパクト音声認識システム

                                                    音声認識は人工知能の分野の中でも独自の進化をとげた分野で,良くも悪くもガラパゴス的と言われたりします. 特に大語彙連続音声認識を実現する既存のソフトウエアは大規模かつ複雑で,音声認識の専門家でさえも全体を理解して改良を加えることは必ずしも容易ではありません.このことは近隣分野と音声認識コミュニティを分断する障壁ともなっています. しかし音声認識を実現するアルゴリズム自体は,基本的には実はそれほど難解なものではありません.ソフトウエアが複雑なのは,多分に計算量やメモリ量削減のための様々な工夫やCに代表される手続き型プログラミング言語の抽象化能力の限界に起因しています. 他方,ソフトウエア工学の分野では複雑な処理をコンパクトに記述可能な次世代プログラミングパラダイムとして,純粋関数型言語が研究されています.純粋関数型言語は長らく研究段階に留まっていましたが,近年はHaskellなど実用性の高

                                                    • Speech API - 音声認識  |  Google Cloud Platform

                                                      Try Gemini 1.5 models, the latest multimodal models in Vertex AI, and see what you can build with up to a 2M token context window

                                                        Speech API - 音声認識  |  Google Cloud Platform
                                                      • 音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day

                                                        OpenAIの音声認識モデルWhiper、いやー、まじですごすぎて感動しました。 配信中のpodcast番組 白金鉱業.FMを頑張って文字起こしするために、この記事とか、この記事とかでかなり真面目に既存文字起こしAPIの精度などを比較していましたが、もう今回は比べるまでもなく本当に雲泥の差です。ほぼ一言一句正確に文字起こしできます。GCP, AWS, Azureの文字起こしAPIは文字起こし精度が体感30~60%くらいでしたが、whisperは90%超えている印象です。もう笑うしかないです。 最初に結論 インストール 実行方法 結果 tinyモデルの結果 baseモデルの結果 smallモデルの結果 mediumモデルの結果 largeモデルの結果 まとめ 追記 カタカナ英語 完全制覇 whisperくん せんでんせんでん 最初に結論 whisperは異なるモデルサイズが5種が利用可能であ

                                                          音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day
                                                        • Juliusで連続音声認識 - 人工知能に関する断創録

                                                          大語彙連続音声認識エンジンJuliusで遊んでみました。動作環境はMac OS X Mountain Lionです。 準備 コンパイラはXcodeでインストールしたgcc(2013/1/13)を使用しました。 また、Macで動かす場合はPortAudioというライブラリも必要みたいなので、macportsであらかじめインストールしておきました(というか何か別のプロジェクトでインストール済みだった)。 % port installed portaudio The following ports are currently installed: portaudio @19.20111121_4 (active) julius本体のインストール Juliusのプロジェクトページからjulius-4.2.3.tar.gzをダウンロードします。サイトの右の方のQUICK DOWNLOADからダウンロ

                                                            Juliusで連続音声認識 - 人工知能に関する断創録
                                                          • Googleが発音のチェックを行う音声認識サービスを開始

                                                            By Prostock-studio Googleが単語の発音チェックを行う新しいサービスを2019年11月14日(木)から開始しました。音声ファイルをAIが認識して文字起こしをしたり、声を出さずに音声入力をしたりと音声認識の技術は日々進化しています。Googleによる発音チェック機能は機械学習を用いた技術となっており、英語学習を格段に効率的にしてくれます。 How do you pronounce quokka? Practice with Search https://www.blog.google/products/search/how-do-you-pronounce-quokka-practice-search/ Google search will now give you feedback on your pronunciation - The Verge https://w

                                                              Googleが発音のチェックを行う音声認識サービスを開始
                                                            • Siriをはるかに越えるAIを備えたSiri開発者らによる新音声認識システム「Viv」がまもなく公開へ

                                                              Appleの音声アシスタント機能「Siri」の誕生に関わった開発者らにより、かねてより開発されていた新しい音声認識システム「Viv」がようやく完成し、まもなく発表されるものと見られています。Vivは「複合的な質問を理解する」「多くのアプリを実行可能」など、Siriをはるかに越えるAIを備えているとのこと。 Siri’s creators say they’ve made something better that will take care of everything for you - The Washington Post https://www.washingtonpost.com/news/the-switch/wp/2016/05/04/siris-creators-say-theyve-made-something-better-that-will-take-care-of-

                                                                Siriをはるかに越えるAIを備えたSiri開発者らによる新音声認識システム「Viv」がまもなく公開へ
                                                              • LINEが無料のAI文字起こしアプリ「CLOVA Note」を提供開始 ~話者を区別した議事録作成も可能/世界3位の性能評価成績を獲得したAI音声認識モデルを採用

                                                                  LINEが無料のAI文字起こしアプリ「CLOVA Note」を提供開始 ~話者を区別した議事録作成も可能/世界3位の性能評価成績を獲得したAI音声認識モデルを採用
                                                                • 音声認識テキスト入力Javascriptライブラリ w3voiceIM.js

                                                                  たった一行追加するだけで、あなたのサイトに音声認識機能を付けられます! w3voiceIM.jsは、Webページの上のテキスト入力フォームに音声認識機能を追加するJavascriptライブラリです。 手軽に音声認識を利用できることが特徴になっています。 また、http://w3voice.jp/でサービスする共有型音声認識エンジンを利用するために、利用者やWeb開発者は、音声認識プログラムのインストールや設定作業を必要としません。 JavaおよびJavascriptが動作するPC及びWebブラウザからの利用をサポートしています。 現在のバージョン 最新のw3voiceIM.jsのバージョンは0.02です。 とりあえず動くようになった開発途上バージョンです。 使い方 音声入力を開始するには、テキストの入力欄をマウスでダブルクリックします。 音声入力パネルが出現したら、「Push here」と

                                                                  • Googleの音声認識エンジンを使って音声ファイルから文字起こししてみた

                                                                    Googleがクラウドサービスとして提供している「Google Cloud Platform」の中に、「Cloud Speech-to-Text」というサービスがあります。このサービスは音声ファイルをAIが認識して文字にしてくれるというものなのですが、一体AIはどれくらい正確に文字起こししてくれるものなのか実際に使って試してみました。 Cloud Speech-to-Text - Speech Recognition  |  Cloud Speech-to-Text API  |  Google Cloud https://cloud.google.com/speech-to-text/ まず、GoogleのクラウドサービスであるGoogle Cloud Platformの登録を済ませておきます。まだ登録していないという人は以下の記事の冒頭部分を参考に登録しておいてください。 無料でGoo

                                                                      Googleの音声認識エンジンを使って音声ファイルから文字起こししてみた
                                                                    • GPU不要・メモリ16GBの本当の一般家庭PCでチャットAIを動作させるライブラリ「GGML」が鋭意開発中、すでにRaspberry Piで音声認識AIを動作させるデモも登場済み

                                                                      ChatGPTやBardなどで利用されているチャットAIは、トレーニングだけでなく動作させるのにも数十~数百GBのVRAMなど非常に高いマシンスペックを要求するのが一般的です。そうした状況を変えるべく、GPU不要でチャットAIを動作させるライブラリ「GGML」の開発が進められています。 ggml.ai http://ggml.ai/ ggerganov/ggml: Tensor library for machine learning https://github.com/ggerganov/ggml GGMLの特徴は下記の通り。 ・Cで記述 ・16bit floatをサポート ・4bit、5bit、8bitの整数での量子化をサポート ・自動微分 ・「ADAM」「L-BFGS」という最適化アルゴリズムを搭載 ・Appleシリコンへの対応&最適化 ・x86アーキテクチャではAVXおよびAVX

                                                                        GPU不要・メモリ16GBの本当の一般家庭PCでチャットAIを動作させるライブラリ「GGML」が鋭意開発中、すでにRaspberry Piで音声認識AIを動作させるデモも登場済み
                                                                      • [速報]Google、家庭用の音声認識デバイス「Google Home」発表。スピーカーで音楽再生、テレビで動画再生も可能。Google I/O 2016

                                                                        [速報]Google、家庭用の音声認識デバイス「Google Home」発表。スピーカーで音楽再生、テレビで動画再生も可能。Google I/O 2016 Googleはサンフランシスコで開催中のイベント「Google I/O 2016」で、音声認識デバイス「Google Home」を発表しました。 Google Assistantを使ってGoogleと会話ができるほか、内蔵のスピーカーから音楽を再生したり、Chromecastを利用してテレビでYouTubeなどの動画再生も可能です。

                                                                          [速報]Google、家庭用の音声認識デバイス「Google Home」発表。スピーカーで音楽再生、テレビで動画再生も可能。Google I/O 2016
                                                                        • Webアプリに高機能な音声認識を追加するWeb Speech API - Kesinの知見置き場

                                                                          Microphone' by Juan_Alvaro, http://www.flickr.com/photos/31590610@N03/5408706936/ CC by 2.0 最近、にわかに音声認識というものが盛り上がっています。 スマートフォンに搭載されている、AppleのSiri、NTTドコモのしゃべってコンシェル、Googleの音声検索あたりが有名ですが、お掃除ロボやエアコン、カーナビといった家電にも音声認識機能が搭載されるようになってきました。 認識の精度や意識の問題(人前で機械に話しかけるのはちょっと恥ずかしい)などの課題はありますが、音声認識はアプリや家電のUIの一部としてこれから普及していくと思われます。 ですが、一般の開発者にとって音声認識機能を自分のアプリやウェブサイトに組み込むのはまだまだ難しいです。 Juliusのようなオープンソースの音声認識システムもありま

                                                                            Webアプリに高機能な音声認識を追加するWeb Speech API - Kesinの知見置き場
                                                                          • リモコンはオワコン。音声認識でお部屋の家電を操作してみた。 - 凹みTips

                                                                            はじめに 本エントリは未来のお部屋シリーズの第4弾です。 本シリーズでは、音声認識システムの Julius と TCP/IP 通信で制御できる赤外線学習リモコン iRemocon を繋いで音声認識による家電操作の実現を目指しています。 ついに!音声認識でお部屋の家電を操作できましたので、ご紹介します。 環境 Ubuntu 10.04 Boost 1.48.0 gcc version 4.6.1 20110617 (prerelease) (GCC) Julius grammar-kit-v4.1 iRemocon 集音マイク×2 (2分岐) 構成 動作構成は以下になります。 マクロ実行部は iRemocon 以外の何か操作も出来るようにしようと思ってますが、未実装です。 ソースコード 各ソースコードは github に上げました。 https://github.com/hecomi/Jul

                                                                              リモコンはオワコン。音声認識でお部屋の家電を操作してみた。 - 凹みTips
                                                                            • ゼロからはじめるPython(84) 録り溜めたボイスメモをAI音声認識APIで一気にテキスト変換しよう

                                                                              家電量販店に行くと今でもボイスレコーダーのコーナーがあり人気だ。またスマートフォンにも必ずボイスメモアプリがある。筆者も一時期アイデアをボイスメモで録り溜めていた。しかし、ボイスメモは聞き直す必要があり管理が面倒という欠点もある。そこで、今回はPythonからMicrosoftのAPIを利用して自動的にボイスメモをテキストに変換する方法を紹介しよう。 WAVファイルを音声認識してテキストに変換したところ 音声認識APIを使ってみよう AI技術の進歩により音声認識の精度が向上している。これまでも音声認識の技術はあったものの精度が今一歩だった。そして個人ユーザーが気軽に活用できる感じではなかった。ところが、最近では、各社が競い合うように音声認識の精度向上に力を入れている。各社から発売されているAIスピーカーを積極的に活用している読者も多いことだろう。 そして、大きな点として、Microsoft

                                                                                ゼロからはじめるPython(84) 録り溜めたボイスメモをAI音声認識APIで一気にテキスト変換しよう
                                                                              • 音声認識でかつてNNがHMMに敗北した状況まとめ

                                                                                音声認識を長年研究されている @akinori_ito 先生が、2000年以前に起こったNNとHMMの競争の流れについてツイートしてくださいました。

                                                                                  音声認識でかつてNNがHMMに敗北した状況まとめ
                                                                                • 音声認識のアドバンスト・メディア

                                                                                  コンタクトセンター向け音声認識ソリューション「AmiVoice® Communication Suite」の製品サイトをリニューアル もしも、人とキカイが 自然な会話でつながる未来を 実現できるなら。 AI音声認識 国内シェアNo.1※の 「AmiVoice®」があれば、 そんな楽しい世界だって、 きっと夢ではありません。 音声認識の力で、 ワクワクできる未来をあたりまえに。 私たちは、 アドバンスト・メディアです。 ※出典:合同会社ecarlate「音声認識市場動向2024」 ソフトウェア/クラウドサービス市場

                                                                                    音声認識のアドバンスト・メディア