並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 1295件

新着順 人気順

音声認識の検索結果81 - 120 件 / 1295件

  • OpenAIの音声認識モデルWhisperを利用し音声からテキストを書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリース。

    OpenAIの音声認識モデルWhisperを利用し音声をテキストへ書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリースされています。詳細は以下から。 ChatGPTやGPT-3などを開発しているOpenAIは2022年09月、Web上から収集した68万時間にも及ぶ音声データを利用し学習させた自動音声認識(ASR: Automated speech recognition)システムWhisperを公開しましたが、その音声認識モデルを利用して音声ファイルをテキストへ変換(書き起こし)してくれるMacアプリ「MacWhisper (Whisper Transcription)」が新たにリリースされています。 Quickly and easily transcribe audio files into text with OpenAI’s

      OpenAIの音声認識モデルWhisperを利用し音声からテキストを書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリース。
    • 音声認識を活用。Rubyから文章を指定して音声認識&処理実行·James MOONGIFT

      JamesはMac OSXの音声認識をRubyから操作できるライブラリ。 JamesはRuby製/Mac OSX用のオープンソース・ソフトウェア。近未来の世界において(映画の中で)たびたび登場するのが音声認識によるコンピュータの操作だ。テレビをつけたり照明を消したり、必要な情報を音声によってやり取りする。 実行中 今のコンピュータでも実際には音声認識は可能だ。だがあまり使われていないイメージがある。そこでもっと使いやすくしてくれるのがJamesだ。 Jamesはコンピュータの中の人の名前だ。そしてMac OSXに標準で搭載されている音声認識機能を使って指令を受け取り、それをRuby上で実行してメッセージを返却する。処理を実行して終わることも、逆に音声を読み上げて完了を知らせることもできる。 コマンド例 時刻を言う、Twitterを取得する、iTunesを立ち上げた後に再生操作を行うなど様々

      • iOSの音声認識でメールを書いたらとてもはかどることがわかった

        iOS 5.1 で追加された音声認識機能で最初の数日間遊んでみたけれども、その後あまり利用しなくなったという人も多いのではないでしょうか? しかし先日病気で倒れて、キーボードに向かうことができないので音声認識でメールを書いたとき以来、この機能を利用することでメールの下書きがとてもはかどることを発見してちょっとした楽しみになっています。 小さな工夫で、iOS の音声認識はかなり正確に文章を拾ってくれるようになりますし、意外な効果があってメールがはかどるようになったのです。我流ですが、コツとポイントについてまとめておきます。 音声認識のこつ なんども誤認識を繰り返して分かったのが、iOS の音声認識はマイクに口を近づけて、大きな声で発音しなければいけないということと、少しゆっくりめにしゃべった方が変換がうまくいくという点です。 上のマイクの画像でいうと、音声のバーが半分以下だと誤認識が混入する

          iOSの音声認識でメールを書いたらとてもはかどることがわかった
        • NFC、AR、音声認識など新技術を活用したプロモーション事例7選

          スマートフォンの急激な普及を背景に、オンラインからリアルなアクションを喚起するO2O(Online to Offline)的な施策が注目されていますが、その盛り上がりを後押しするような新技術が続々と登場し、急速に拡大する気配を見せています。 こんにちは、SMMLabの藤田です。 O2Oはこれまで、「オンライン上での流入アクセスを、リアル店舗への誘導に活用する」という意味合いで語られることが多かったのですが、常時携帯デバイスであるスマートフォンの普及により、オンライン上の情報収集から実際のアクションまでの時間が大幅に短縮され、オンラインとオフラインを行き来するようなO2O2Oといった動線を辿るユーザーも多くなってきました。また、O2Oに限らず、ユーザー行動の変化を加速させる、新しい可能性を持った新技術が続々と登場しています。今日は、スマートフォンをキーアイテムに、ネットとリアルを新しい形でつ

            NFC、AR、音声認識など新技術を活用したプロモーション事例7選
          • 音声認識がなんとかというメッセージが表示される:Word(ワード)の使い方

            Wordで文書ファイルを保存をしようとしたときや、PCによっては作業をしている途中何分かごとに、意味のわかりにくいメッセージが表示されることがあります。 Word 2002の場合、 「録音された音声認識入力や、修正候補のようなデータなしで文書が保存されました。」 というメッセージ。 Word 2003なら、 「文書は保存されましたが、音声認識データを保存する十分な空き領域がないため、データは失われました。録音していないときは、必ずマイクをオフにし、ディスクで利用できる記憶域を確認してください。自動バックアップ機能が有効な場合には、上記のメッセージが数分毎に表示される場合があります。」 というメッセージです。 一体何のことを言っているのか非常にわかりにくいメッセージです。 そもそも音声認識なんて使ってないよと多くの方が感じるはずです。 Wordは、音声データなどの言語データも、ファイルを保存

            • C# で日本語合成音声・音声認識をやってみよう。 - お前の血は何色だ!! 4

              この記事は C# advent calendar 2011の記事です。 microsoftって音声認識・合成音声のOS組み込みをXPから初めています。 今回は、そのライブラリを使い、日本語合成音声でしゃべり、日本語の音声認識するソフトの作り方を説明したいと思います。 サンプルの使い方とソース サンプルソース http://rtilabs.net/files/2011_12_16/speechplatformtest_src.zip サンプルexe http://rtilabs.net/files/2011_12_16/speechplatformtest.zip 開発環境 windows7 64bit .Net4 依存ライブラリ Speech Platform ver11 http://mahoro-ba.net/e1541.html http://www.microsoft.com/do

                C# で日本語合成音声・音声認識をやってみよう。 - お前の血は何色だ!! 4
              • Pythonを使って、画像認識や音声認識を学ぶ——リックテレコム、「使ってわかったAWSのAI」を刊行|fabcross

                本書はAWSのAIサービスについて、全体像を掴むことを目的とした解説書だ。 全5章構成。第1章で人工知能全般について、第2章でAWSの機械学習サービスについてそれぞれ解説した後、第3章「AIサービス」では、Pythonを使って画像認識(Rekognition)や音声認識(Transcribe)、自然言語処理(Amazon Comprehend)やドキュメント分析(Amazon Textract)など、各種AIサービスやSDKについて解説する。トレーニングデータを準備し、時系列予測のための予測モデルを作成するAmazon Forecastについても触れる。 また、第4章では完全マネージド型の機械学習サービス「SageMaker」の組み込みアルゴリズムの作成、第5章ではEC2環境を利用して深層学習フレームワーク「Deep Learning AMI」について解説する。 著者は井上研一氏。B4変型

                  Pythonを使って、画像認識や音声認識を学ぶ——リックテレコム、「使ってわかったAWSのAI」を刊行|fabcross
                • 音声認識で人間並みのコミュニケーションが可能に――「AmiVoice」の未来 (1/2) - ITmedia Mobile

                  アドバンスト・メディアは同社の音声認識技術「AmiVoice」を用いて、医療やビジネスソリューション、コールセンター、教育、議事録などさまざまな分野で“音声認識”を浸透させてきた。モバイルでは、同社のらくらくホン向け「音声入力メール」やiPhone向け「音声認識メール」のほか、GoogleもiPhoneやAndroid端末向けに音声検索を提供。音声認識は文字入力に変わる新たなユーザーインタフェースとして身近な存在になりつつある。 音声認識技術は今後どのような進化を遂げ、どのようなビジネスモデルが創出されるのか。同社が1月22日に実施した技術・戦略説明会で、その詳細を明かした。 今後は機械が人間並みのコミュニケーション能力を持つ アドバンスト・メディア 代表取締役会長の鈴木清幸氏は、「これまでの音声認識技術は機械中心だったが、今後は人間中心に回帰する」と話し、現在が転換期であることを示唆した

                    音声認識で人間並みのコミュニケーションが可能に――「AmiVoice」の未来 (1/2) - ITmedia Mobile
                  • Raspberry Pi + Julius + LIRC により家電製品を音声認識で操作する

                    0. はじめに 本書の第5章において、LIRC(Linux Infrared Remote Control) というソフトウェアを用いてRaspberry Piをテレビなどの家電製品のリモコンにする方法を紹介しました。 さらに、本ページの追加コンテンツ「Raspberry Pi上のLIRCでエアコンを操作する」において、書籍では触れられなかったエアコンの操作方法も紹介しました。 これらにおいて、家電製品へ命令を送信する方法として下記の3つを用いました。 ターミナル上でのirsendコマンドによる送信 タクトスイッチによる送信 WebIOPiによるブラウザ経由の送信 本ページではこれらの3つに加え、「音声による命令の送信」の方法を紹介します。音声認識のためには音声認識エンジンであるJuliusを用います。 応用的なコンテンツとなりますので、本書第5章の「ターミナル上でのirsendコマンドに

                      Raspberry Pi + Julius + LIRC により家電製品を音声認識で操作する
                    • 「CLOVA Note」は、なぜ高精度な音声認識を実現できるのか。Speechチームが語る開発秘話

                      LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2022年5月24日より、LINE株式会社は「会話を目で見る」ことができる無料のAI音声認識アプリ「CLOVA Note」のβ版の提供を開始しました。「CLOVA Note」は、LINE CLOVAのAI技術である「CLOVA Speech(音声認識)」の音声認識AIを活用して、録音した声をテキストに変換します。アプリをインストールし、スマートフォンやタブレットの録音ボタンを押すだけで、誰でも簡単に利用可能です。 「CLOVA Speech」は、近年注目を集めているSelf-Supervised Learning(自己教師あり学習)を利用した、最先端のEnd-to-End音声認識を採用しています。そして複数名の話者の区別を行う

                        「CLOVA Note」は、なぜ高精度な音声認識を実現できるのか。Speechチームが語る開発秘話
                      • Raspberry Piで音声認識する人工知能をつくってみる | IoT NEWS

                        IoT技術部の5回目は「音声認識」で命令を聞く「人工知能」に挑戦です。みなさんは、話題の人工知能って手軽にやろうとするとどれくらいできるのだろうって思ったことありませんか? 今回は、Amazon Echoのように、Raspberry Piにつけられたマイクに向かって命令すると、命令を聞くというモノをつくってみようと思います。 今回作った人工知能は、名付けて「トメキチ(留吉)」。名前を考えていてパッと頭に湧いたのが「トメキチ」だった、という単純な理由でこの名前にしましたので深い意味はありません。。。 目標とする動きは、こんな感じです。 1)マイクからの音声を認識する 2)認識した音声に応じてコマンドを実行する 今回は、 「トメキチ 歌ってください」 と話しかけると、トメキチが歌い出すようにしてみます。 あとは、ちょっと会話っぽくするために、話しかけると 「へい!親方!」 と答えてくれるように

                          Raspberry Piで音声認識する人工知能をつくってみる | IoT NEWS
                        • ぼっち英会話 - 映画のセリフをスピーキングして音声認識で採点

                          Chromeで動作する映画のセリフをスピーキングして音声認識で採点するWEBサービス

                          • 音声認識 - Wikipedia

                            音声認識(おんせいにんしき、英: speech recognition)は声がもつ情報をコンピュータに認識させるタスクの総称である[1]。ヒトの(天然)音声認識と対比して自動音声認識(英: Automatic Speech Recognition; ASR)とも呼ばれる[2]。 例として文字起こしや話者認識が挙げられる。 音声認識は「音声に含まれる情報を認識するタスク」の総称であり、具体的に解かれる問題の例として以下が挙げられる: Speech-to-Text (STT): 含まれる言語情報を文字に変換するタスク。いわゆる文字起こし キーワード認識(英語版)(KWS): 事前に設定されたキーワードの出現を認識するタスク。例として「ヘイ、Siri」 音声認識をサブタスクとして含むタスクには以下が挙げられる: 音声操作: 音声によるアプリの操作。SST/KWSで音声情報を取り出し、これをコンピ

                            • 音声認識ソフトウェアで、パーキンソン病の診断ができる研究がすすむ

                              音声認識ソフトウェアで、パーキンソン病の診断ができる研究がすすむ2012.07.03 22:00 そうこ Siri子ドクターの誕生か。 音声認識ソフトウェアを使うことで、パーキンソン病の症状を察知することができる、ということが最近の研究でわかりました。研究しているのは、オックスフォード大学チーム。 中枢神経系の退化が原因で起きるパーキンソン病は、今まで診断を下すための確実な方法がないとされてきました。故に、今パーキンソン病にみられるような症状を分析して判断していたわけです。が、オックスフォード大学研究チームのマックス・リトル氏は、それを変えようと音声認識によるアルゴリズムを開発しました。このソフトウェアには、パーキンソン病を煩う人とそうではない人のデータが入っており、このデータベースから学習し実際の病気の症状がみらえるものを分類するという仕組みになっています。 研究初期では、50人のパーキ

                                音声認識ソフトウェアで、パーキンソン病の診断ができる研究がすすむ
                              • 音声認識メール: しゃべってメールが書ける鬼神アプリ!黙ってiPhoneに入れておけ!無料。445 | AppBank

                                音声認識メールの動画はこちら 音声認識メールの紹介はこちらから 起動画面は非常にシンプル。 で、画面下の「押しながらしゃべってください」をタップしながらしゃべってみると、待ち時間ほぼゼロでしゃべった言葉が出てきます。 表示されたテキストは指で右から左へスクロール可能。 スクロールしながら文章をチェックして、「全確定」をタップするとテキストが確定されて表示されます。 続けて何度でも音声入力できます。 なお、テキストの表示されている箇所をタップすると、いつものiPhoneの文字入力キーボードが表示されて、普通にテキストを編集することができます。テキストの直接入力or音声入力は画面右上のボタンで切り替えることができます。 また、辞書登録機能が最強! AppBnakとentrypostmanという単語を登録してみたところ・・・ しゃべったら普通に出ました! 「AppBankのentrypostma

                                • Amazon.co.jp、新型「Fire TV Stick」を4月6日発売、予約受付を開始 音声認識リモコンが標準で付属

                                    Amazon.co.jp、新型「Fire TV Stick」を4月6日発売、予約受付を開始 音声認識リモコンが標準で付属
                                  • 【iOS 10】Speechフレームワークで音声認識 - 対応言語リスト付き - その後のその後

                                    iOS 10のドキュメントが公開された当日に書いた下記記事で、最も反響が大きかったのが音声認識APIでした。 http://d.hatena.ne.jp/shu223/20160614/1465862051 今回公開された SiriKit(Intents / IntentsUI)とは別のフレームワーク、Speech Framework として公開されたものです。リアルタイム音声にも、録音済み音声にも使えるようです。 今までも色々と音声認識を実現する手段はありましたが、やはりApple純正となると一気に本命になってきます。*1 というわけで本記事では Speech フレームワークを色々いじってみて、何ができるのかとか、どうやるのかとか見てみたいと思います。 なお、NDA期間中につき、スクショは自粛します。 Apple Developer Agreement まずはサンプルを動かしてみる "S

                                      【iOS 10】Speechフレームワークで音声認識 - 対応言語リスト付き - その後のその後
                                    • まずはiPhoneからTwitterと連携する――音声認識技術「AmiVoice」が向かう先

                                      キー入力から音声入力へ――。日本唯一の音声認識専門企業 アドバンスト・メディアが開発した音声認識エンジン「AmiVoice」は、入力方法の常識を覆す可能性を秘めている。それは、AmiVoiceが医療、モバイル、コールセンター、英語教育などの分野において、さまざまなパターンの単語と文章を高い精度で認識できる技術をベースに開発されていることが大きい。 さらに、同社が音声認識を優位に展開できると考える携帯電話向けでは、パケット通信を利用した分散型音声認識技術「DSR」を開発し、劣化のない音声データによる音声認識が可能になった。これらの技術は「らくらくホン プレミアム」「らくらくホンV」「らくらくホン ベーシックII」「らくらくホン6」や、iPhone向けの「音声認識メール」などで活用されている。 アドバンスト・メディアは今後、携帯向けにどのようなサービスを展開していくのか。同社ソリューション事業

                                        まずはiPhoneからTwitterと連携する――音声認識技術「AmiVoice」が向かう先
                                      • 世界最大1万9千時間の音声コーパスと高精度日本語音声認識モデルがオープンソースで公開/商用・非商用を問わず、誰もが自由に利用・改変・再配布可能

                                          世界最大1万9千時間の音声コーパスと高精度日本語音声認識モデルがオープンソースで公開/商用・非商用を問わず、誰もが自由に利用・改変・再配布可能
                                        • 音声認識でリアルタイムに会議をテキスト化 富士通、聴覚障害者支援ツール「LiveTalk」開発

                                          富士通と富士通ソーシャルサイエンスラボラトリ(富士通SSL)は4月14日、聴覚障害者参加型コミュニケーションツール「FUJITSU Software LiveTalk」を発表した。リアルタイムに発話をテキストにすることで、聴覚に障害を持つ人の会議や授業への参加を円滑にする。発売は5月中旬を予定。 PCに接続したマイクで会議や授業などで複数人の発言をリアルタイムに音声認識し、それぞれのPC画面に表示する。利用者は文章で内容を把握するだけでなく、スタンプや定型文、キーボード入力などで参加できる。 マイクごとにアカウントを振り分け、それぞれ発話者が分かる形で示す。複数の人が同時に話した場合は並行処理し、会話の流れを正確に追うことができるという。 音声認識技術には「AmiVoice SP2」(アドバンスト・メディア)を採用。リアルタイム性を重視するため、正確に拾えない箇所もあるが、画面上のテキスト

                                            音声認識でリアルタイムに会議をテキスト化 富士通、聴覚障害者支援ツール「LiveTalk」開発
                                          • 音声認識AIに言葉を覚えさせよう!! (COTOHA音声認識) - Qiita

                                            COTOHA APIとは?? NTTが長年頑張って得たノウハウを詰め込んだ、NTTコミュニケーションズが提供する自然言語処理のAPIサービスになります!! サービスの詳細 はこちらを見て頂くとして、これまでは構文解析やユーザ属性推定などのテキスト解析のサービスを提供していました。 Python初心者 COTOHA API 初心者 "自然言語処理を簡単に扱えると噂のCOTOHA APIをPythonで使ってみた"で、テキスト解析で遊んでもらってからこの記事を見て頂くことをオススメします!! リファレンス はこちら GitHub はこちら さて本題に入りましょう!! 今回はテキストではなく... 音声認識 !! 今までCOTOHAは、テキストしか相手にしてくれませんでした... しかし、音声認識APIが2019年3月にリリースされCOTOHA君が音声言語を理解するようになりました!!しかも、

                                              音声認識AIに言葉を覚えさせよう!! (COTOHA音声認識) - Qiita
                                            • End-to-End音声認識の計算量を削減した話

                                              ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、音声処理黒帯(黒帯はヤフー内のスキル任命制度)の藤田です。今日のブログでは、音声認識技術の研究開発におけるヤフーの最新の取り組みを紹介します。 特に、近年注目されているTransformerという手法に基づく、End-to-End音声認識の計算量を削減した研究を紹介します。この研究は、難関国際会議IEEE ICASSP2020に投稿し、採択されました。また、arXivでプレプリントを公開しています。そして、ESPnetというEnd-to-Endモデルのツールキット上でソースコードも公開しています。興味のある方はぜひ、こちらもご参照ください。 音声認識で用いられるEnd-to-Endモデルとは? 音声認識技術は音声をテキ

                                                End-to-End音声認識の計算量を削減した話
                                              • 息子氏が「OK, Google」と言っても音声認識してくれない可愛すぎる理由→子育ての超あるあるだった「うちも言ってる」

                                                谷本 心 / CERO-METAL @cero_t 【悲報】息子氏、一生懸命「OK, Google」と言おうとするも、どうしても「おっけー、ぐーるぐる」となってしまい、まったく認識されない。 2019-07-24 06:55:05 Shin Tanimoto / CERO-METAL @cero_t Java Champion / Java本格入門 / Everforth CTO / Acroquest Technology / 技術顧問(個人事業) / 中受2027 / FEXL Tokyo / We are BABYMETAL🦊🤘

                                                  息子氏が「OK, Google」と言っても音声認識してくれない可愛すぎる理由→子育ての超あるあるだった「うちも言ってる」
                                                • Microsoft、米音声認識大手を1.7兆円で買収へ 米報道 - 日本経済新聞

                                                  【シリコンバレー=白石武志】米ブルームバーグ通信は11日、米マイクロソフトが音声認識技術大手の米ニュアンス・コミュニケーションズの買収に向け交渉を進めていると報じた。買収額は約160億㌦(約1兆7500億円)となる見込み。米グーグルなどとの競争が激しい音声人工知能(AI)分野を強化する狙いとみられる。ニュアンス社はAIを使った音声認識サービスの老舗で、米アップルの音声アシスタント機能「Siri

                                                    Microsoft、米音声認識大手を1.7兆円で買収へ 米報道 - 日本経済新聞
                                                  • 常識を超えた「超音声認識」も登場する――アドバンスト・メディアが切り開く音声認識の可能性

                                                    音声認識技術を開発しているアドバンスト・メディアが8月21日、技術・戦略説明会を開催。同社の音声認識技術「AmiVoice」の優位性や、ビジネスのロードマップについて説明した。 アドバンスト・メディアは日本国内唯一の音声認識専門企業として1997年に創立。次世代音声認識技術のAmiVoiceを開発し、医療やモバイル、コールセンター、議会議事録、英語教育など、さまざまな分野で音声認識ソリューションを提供してきた。モバイルの分野では、「らくらくホン プレミアム」「らくらくホン ベーシックII」「らくらくホン6」の「音声入力メール」や、iPhone向けの「音声認識メール」、NTTドコモ向けの「声ちぇき!DX」「乗換案内NEXT」などにAmiVoiceを提供している(アドバンスト・メディアの関連記事一覧も参照)。 アドバンスト・メディアの概要(写真=左)。アドバンスト・メディア 代表取締役社長 長

                                                      常識を超えた「超音声認識」も登場する――アドバンスト・メディアが切り開く音声認識の可能性
                                                    • [CEDEC 2009]大域照明や音声認識など,スクウェア・エニックスの「職人技」を不要にする自動化最前線

                                                      [CEDEC 2009]大域照明や音声認識など,スクウェア・エニックスの「職人技」を不要にする自動化最前線 編集部:aueki スクウェア・エニックス研究開発部開発ディレクター藤井栄治氏 CEDEC最終日,スクウェア・エニックスの研究開発部による「Natural Expression 自然な表現を目指す」と題した講演が行われた。 最初に登壇したのは開発ディレクターの藤井栄治氏。まずは,なぜNatural Expressionが重要なのかについて語った。 Natural Expressionを直訳すると,そのまま「自然な表現」となるのだが,Naturalの意味として「加工されていない」というものを強調していたことから,加工されていない→手を加えなくていいようなデータを自動生成していくことを目指すもののようだ。 つまり,スクウェア・エニックス社内には,職人級の優秀なアーティストや技術者がいるわ

                                                        [CEDEC 2009]大域照明や音声認識など,スクウェア・エニックスの「職人技」を不要にする自動化最前線
                                                      • ビル・ゲイツ氏が語る音声認識の未来とナチュラルインターフェース

                                                        サンフランシスコ発--Bill Gates氏は長年の間、近い将来コンピュータを手書き文字や声、タッチで制御するようになる日が来るだろうと言い続けてきた。 Gates氏は今でもそう言っている。CNET News.comのインタビューの中で、Gates氏は音声認識が既に実用化されている分野や、今後使われるようになるシーン等を議論した。 Microsoftの企業向けテレフォニーソフトウェアの新版の発売に関連して、Gates氏は、なぜビジネス電話がこんなに長い間変わらずに来たのか、そしてもしそれがPCと同じネットワークの一部になったら物事がどれだけ変わるかを議論した。さらに同氏は、MicrosoftのテーブルトップコンピュータSurfaceとAppleのiPhoneを例にひいてマルチタッチの考え方に人気が集まっていることを示しながら、タッチスクリーンコンピューティングの可能性について語った。 Ga

                                                          ビル・ゲイツ氏が語る音声認識の未来とナチュラルインターフェース
                                                        • 日本語連続音声認識エンジン"Julius"をAndroidで動作させる 1 - Tech-Sketch

                                                          iPhone4SやiPhone5をお持ちのみなさん、 Apple Siri は活用していますか?NTT docomoのスマートフォンをお持ちの方は、 しゃべってコンシェル を使ってらっしゃいますか? AndroidやiOSを搭載したスマートデバイスが花盛りの昨今、Apple Siriやしゃべってコンシェルのような スマートデバイスに話しかける」ことで何らかのアクションを起こさせるサービスが、特別な機器を揃えずとも使えるようになりました。 このようなサービスは一般消費者にとっても有用ですが、スマートデバイスを企業内で利用するシーンでは特に力を発揮します。 例えば両手がふさがった状態で機械の整備をしている時に、胸ポケットに入れたスマートデバイスに「次は何をするんだっけ?」と話しかけたら、「次は右の3番ボルトを10N.mのトルクで締めてください」とか答えてくれたら、すごく便利ですよね。 この

                                                          • MIT、“声を出さずに音声認識”できる技術を開発--あごの神経信号から発声を推測

                                                            マサチューセッツ工科大学(MIT)の研究チームは、“声を出さずに音声認識させる技術”を開発した。“あご”の筋肉と連動する神経信号を計測し、その情報から話された言葉を推測する仕組みだ。 神経の信号は、“あご”に取り付けた4つの電極で検出。これにより、目で認識できないほどかすかな動きを捕捉するという。信号データを機械学習システムで解析すると、話すように思い浮かべただけで実際には発声していない言葉を、あたかも音声認識のようにとらえられる。 このシステムは骨伝導スピーカも搭載しており、装着者に音声で情報を返す。つまり、静寂を守らなければならない環境で声を出せなかったり、逆に騒音などで声によるやり取りが困難だったりする状況でも、音声による情報のやり取りが可能になるのだ。しかも、ハンズフリーで操作するため、手を放せない場面でも利用できる。さらに、ガンや事故で“あご”を失った人のコミュニケーションツール

                                                              MIT、“声を出さずに音声認識”できる技術を開発--あごの神経信号から発声を推測
                                                            • LINEは気づいている!音声認識の実力差が「国力」を左右する理由(西田 宗千佳)

                                                              身近なあの技術で広がる「格差」 我々にも身近なある技術の「精度の差」が、今後の国力を左右するほどの大問題になりつつある、といったら驚くだろうか? 大げさな話ではない。そしてじつは、今この瞬間も、「その差」は拡大しているのだ。 どういうことか? 俗に「AI」とよばれる技術は、多様な要素を含んでいる。なかでも、我々の生活の中にすでに入り込み、必須の要素となっているのが「画像認識」や「音声認識」などの技術だ。 このうち「音声認識」技術の進展具合が、これからの数年間で国力に大きく影響を与えるようになる──筆者はこう予想している。 それはなぜか? 「AI」の一要素にすぎない技術がなぜ、そこまで大きな影響力をもちうるのか? その点を深掘りしてみよう。 今いちばん話題のアプリ 「あのアプリは必須だよね」 2018年末くらいから、海外在住の記者や海外取材が多いライターのあいだで、大きな評判をよんでいるアプ

                                                                LINEは気づいている!音声認識の実力差が「国力」を左右する理由(西田 宗千佳)
                                                              • フリーの iOS 向け音声認識/音声合成ライブラリ『OpenEars』の使い方 - Qiita [キータ]

                                                                OpenEars は Politepix 社より提供されている フリーの iOS 向け音声認識/音声合成(Text to Speech, TTS)ライブラリ です。 OpenEars 話した言葉を認識したり、 入力した文字列を読み上げ たり(mac の say コマンドみたいなもの)することができます。 試してみたところ超簡単に使えたので、自分のアプリに OpenEars を導入する方法を紹介します。 (2014.3.31追記) OpenEars 最新バージョンでの音声認識の導入方法については次の記事をご参照ください:『OpenEars 1.6で音声認識を行う』 音声合成の導入方法 フレームワーク追加、ヘッダインポートといった一般的なライブラリの導入手順をのぞけば、基本的には メソッドを1つ呼ぶだけ で導入できます。 1. フレームワークをプロジェクトに追加 解凍したフォルダ配下にある F

                                                                  フリーの iOS 向け音声認識/音声合成ライブラリ『OpenEars』の使い方 - Qiita [キータ]
                                                                • Unityで音声認識

                                                                  Full Name Comment goes here. 12 hours ago Reply Edit Delete Spam Block Unity上での音声認識を使ったゲームの作成方法を今日は発表しようとおもいます。 <br /> よろしくお願いします。 今回発表するのは、金沢大学3年、濱屋光喜と言います。 <br /> Unity歴はダウンロードしたのは結構前ですが、長い間使っていなかったのが現状です。 <br /> プログラミング歴はそれなりなのですが、飽き性なので何かを完成させることは少なかったです。 さて、何事も目標がないとやりづらいと思いますので、何を目指すかを決めておこうと思います。 <br /> 私が目指そうと思っているのが… PS2用ソフトの「オペレーターズサイド」です。 <br /> このゲームは2003年にソニー・コンピュータエンターテインメントが発売したもので、

                                                                    Unityで音声認識
                                                                  • 人間の脳細胞を電極の上に置いてつくった人工知能。日本語の音声認識を実現【研究紹介】

                                                                    人間の脳細胞を電極の上に置いてつくった人工知能。日本語の音声認識を実現【研究紹介】 2023年12月13日 米Indiana University Bloomingtonなどに所属する研究者らが発表した論文「Brain organoid reservoir computing for artificial intelligence」は、人間の脳細胞を用いて基本的な音声認識を行うAIシステムを提案した研究報告である。 このシステムは、生きている脳細胞の塊、すなわち脳オルガノイドを利用している。脳オルガノイドは、幹細胞を特定の条件下で育成することによって人工的に作られる、数ミリメートルの神経細胞の塊(ミニ脳組織)である。この脳オルガノイドは、最大で1億の神経細胞を含んでおり、計算に使用される。この脳オルガノイドは、成熟したニューロン、アストロサイト、神経前駆細胞など、さまざまな脳細胞のアイデン

                                                                      人間の脳細胞を電極の上に置いてつくった人工知能。日本語の音声認識を実現【研究紹介】
                                                                    • LINEのAIサービスの音声認識技術を支えるチームを紹介します

                                                                      LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog LINEの開発組織のそれぞれの部門やプロジェクトについて、その役割や体制、技術スタック、今後の課題やロードマップなどを具体的に紹介していく「Team & Project」シリーズ。今回は、LINEの提供するAI関連のソリューションやプロダクトに実装されている、音声認識技術の開発を担当しているチームを紹介します。 Speechチームの木田祐介、坂本渚、芦川博人に話を聞きました。 Speechチームの皆さん まず、自己紹介をお願いします。 木田:AIカンパニーにて音声認識技術の開発を行っているSpeechチームのマネージャーをしています。1年ほど前にエンジニアとしてSpeechチームにジョインして、今年の1月からマネージャーを務め

                                                                        LINEのAIサービスの音声認識技術を支えるチームを紹介します
                                                                      • OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始 | Ledge.ai

                                                                        インター・ラボ株式会社は12月15日、人工知能研究組織OpenAIが開発した音声認識モデル「Whisper」を利用した音声文字起こしAPIである「WhisperAPI」の無償提供を開始したことを発表した。OpenAIは、文章から画像を生成するAI「DALL・E2」や、自然で多彩な文章を生成するAI「GPT-3」などを開発している。 高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外部サービスと連携するなど幅広いユーザーが利用できるようにする。また、プログラミングの知識を持たない人でもブラウザでかんたんに利用できるWebサービスも提供する。 画像はWhisper公式Githubより Whisperとは、OpenAIが開発した汎用的な音声認識モデルで、現在GitHubにおいて公開されている。教師あり学習で68万時間というデータを学習しており、高い音声認識精度を持つ。音声翻訳や言

                                                                          OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始 | Ledge.ai
                                                                        • Julius で音声認識させてみた - 凹みTips

                                                                          はじめに 前回、iRemocon を操作するところまでやりました(中身はただの telnet みたいなもんですが…)。 次はマイクで喋った言葉を拾ってそれに従って操作を出来るようにしようと思います。このエントリでは音声認識した結果を C++ で取ってくるところまでやります。 で、フリーの音声認識エンジンがないかと探してみたところ、Julius に白羽の矢が立ちました。 大語彙連続音声認識エンジン Julius 音声認識分野の界隈では有名らしいですが、分からない点が多かったのでぼやいてたら、色々な方に助言をいただいて、何とか動かすことができました。ありがとうございます! 環境 Ubuntu 11.10 Julius 4.2.1 gcc version 4.6.1 (Ubuntu/Linaro 4.6.1-9ubuntu3) Boost 1.48.0 Juliusのインストールと動作テスト T

                                                                            Julius で音声認識させてみた - 凹みTips
                                                                          • 音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita

                                                                            本記事は MIXI DEVELOPERS Advent Calendar 2022 の4日目の記事です。 TL;DR Romi チームでは自然言語処理をメインでやりつつ、最近は音声系も手を出しつつあるよ 2022年末現在の音声認識最強モデル Whisper を高速化 重みの fp16 化 TorchScript 化 認識の長さを30秒ごとから10秒ごとに 結果処理速度が約2倍に ソースコード: https://github.com/projectlucas/efficient_whisper 実験結果: https://github.com/projectlucas/efficient_whisper/blob/main/notebooks/efficient_whisper.ipynb はじめに こんにちは株式会社 MIXI Romi 事業部 Engineering Manager の

                                                                              音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita
                                                                            • ケータイ早打ち王者、音声認識技術に破れる

                                                                              携帯電話早打ちの世界チャンピオンに、音声認識技術が勝利した。 音声技術を手掛ける米Nuance Communicationsは10月25日、同社のモバイル向け音声テキスト変換技術「Nuance Mobile Dictation」が、携帯電話を使って最も高速かつ正確にメールを書く方法を決める勝負で勝利を収めたと発表した。 「Amazing Race: Mobile Text Messaging」と題されたこの古典的な「人間vs.機械」の勝負は、モバイル通信業界のイベントConversations Mobileで行われた。Nuance Mobile Dictationと対戦したのは、最近携帯電話早打ち世界チャンピオンの座を獲得した米ユタ州のベン・クック氏(18)。以下の160文字のメッセージを携帯電話を使って42.22秒で入力したギネスブック記録を持つ。 「The razor-toothed

                                                                                ケータイ早打ち王者、音声認識技術に破れる
                                                                              • [iPhone, iPad] Dragon Dictation: 喋ると音声認識して文章になる!歩きながらメールが書ける!無料。3726 | AppBank

                                                                                iPhoneに向かって喋ると、日本語の文書に変換してくれます。さながら、iPhoneの中に小人がいて、彼が僕の言葉を書き起こしてくれているかの如き。 認識率ですが、4回に1回くらいの割合で、1・2文字誤認識する程度。スピードについて、速い人の入力速度よりはちょっと遅い程度だと感じました。 その他、「まる」と言うと「。」と記述される機能や、すぐにメールやtwitterに投稿できる機能が便利です。 実用性?大アリですね!片手がふさがっている時や、歩いている時などに、つぶやいたりメールの下書きを書くのに便利そうです。 それではご紹介!

                                                                                • 音声認識でプログラミング - hitode909の日記

                                                                                  音声認識でプログラミングする情報.たまに見返したくなるのでメモ. Using Python to Code by Voice Using Python to Code by Voice - YouTube 音声認識でプログラミングするためのプログラム作って使ってるという発表. Microsoft Vista Speech Recognition Tested - Perl Scripting Microsoft Vista Speech Recognition Tested - Perl Scripting - YouTube Windows Vistaの音声認識でPerl書こうとする動画. ujihisaさんが見た人 ujihisa: emacs使いのうち一人が ujihisa: 本当にすごかった・・・ ujihisa: やばい・・・ ujihisa: emacs最大の弱点 ujihis

                                                                                    音声認識でプログラミング - hitode909の日記