並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 1292件

新着順 人気順

音声認識の検索結果201 - 240 件 / 1292件

  • whispper online(GoogleChromeで音声認識してツイートするウェブアプリ) - hitode909の日記

    id:AirReaderさんが,Androidに向かってしゃべると音声認識してツイートできるAndroidアプリを作られてて,ぼくも音声認識で会話したかったので,ブラウザに向かってしゃべると音声認識してツイートできるウェブアプリを作った. http://hitode909.appspot.com/whispper/ マイクのボタンを押すと音声認識が始まるので,てきとうにしゃべって,しゃべりおわると,いきなりツイートされる. TwitterとOAuth認証して使う.Google Chromeで動く. サイトを開きっぱなしで何かしゃべると勝手に投稿されたらおもしろそうだったけど,それはできなくて,マイクのボタンを押すと認識開始する. ドラフトを読むと,startSpeechInputメソッドで音声認識を開始できるようだけど,まだ実装されてないようだった. 関連 HTML Speech Inpu

    • 音声認識APIを手軽に使えるようにする·annyang MOONGIFT

      annyangはJavaScript製のオープンソース・ソフトウェア(MIT License)です。 Siriなどの登場によって一気に知名度があがった音声認識システムですが、それをWebベースで、しかもJavaScriptだけで実現してしまおうというのがannyangです。 まずマイクへのアクセス許可が求められます。 いきなりHelloというと文字が表示されます。 さらにShow me〜というとFlickr検索をします。 Show TPS reportで下から画像がせり出してきます。 annyangではモダンなWebブラウザに実装されている音声認識API(webkitSpeechRecognitionなど)を使っています。そして指定したワードにヒットした場合に予め決められた処理をコールする仕組みです。音声認識を使ったイベント処理を容易に実装できる面白いライブラリです。 MOONGIFTはこ

        音声認識APIを手軽に使えるようにする·annyang MOONGIFT
      • Speech API - 音声認識  |  Google Cloud Platform

        容易に使用可能な API を使用して、音声を音声文字変換テキストに変換し、音声認識をアプリケーションに統合します。 1 か月あたり最大 60 分間無料の文字起こしと分析をご利用いただけます。*また新規のお客様には、Speech-to-Text や他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。

          Speech API - 音声認識  |  Google Cloud Platform
        • グーグルが量子コンピューティングで研究所設立、ウェブ検索や音声認識に応用

          米グーグルは2013年5月16日、量子力学の原理を使って高速演算を行う「量子コンピューティング」を、ウェブ検索や音声認識などに応用することを目指す研究所を立ち上げたことを明らかにした。 研究所の名前は「Quantum Artificial Intelligence Lab(量子人工知能研究所)」で、米航空宇宙局(NASA)のエイムズ研究センター内に立ち上げる。学術団体の大学宇宙研究協会(USRA)を通じ、世界中の科学者が研究に参加できるようにする。 研究所には、カナダD-Wave Systemsが開発した商用の量子コンピュータを設置する。D-Wave Systemsは、従来とは異なる新しいタイプの量子コンピュータを開発している企業。数学上の問題を、ある量子系が最も低いエネルギー状態に落ち込む物理現象へとマッピングする手法で、最適解を導くという。 研究所を立ち上げた米グーグルの狙いは、人工知

            グーグルが量子コンピューティングで研究所設立、ウェブ検索や音声認識に応用
          • 『Google Translate』のiPhoneアプリ版が登場! 音声認識からの通訳やオフラインストレージにも対応しました! | ライフハッカー・ジャパン

            デスク配線がスッキリ。Ankerの全部入り12 in 1モニタースタンドが突然8,250円OFFされてた #Amazonセール

              『Google Translate』のiPhoneアプリ版が登場! 音声認識からの通訳やオフラインストレージにも対応しました! | ライフハッカー・ジャパン
            • 衆議院の新会議録作成システムにおける京都大学の音声認識技術の導入

              衆議院の新しい会議録作成システムにおいて、河原達也 学術情報メディアセンター教授らの研究開発による自動音声認識技術が導入されました。約1年間の試行を経て、このたび本格的に運用されることになりました。 研究の背景とシステムの位置づけ  明治23(1890)年に我が国に議会が設立されて以来百年以上にわたり、会議録の作成は手書き速記によって行われてきました。今世紀になって衆参両院において速記者の新規採用・養成が停止され、新たな会議録作成方法が模索されました。様々な検討をふまえて、衆議院において音声認識技術を用いたシステムが採用されました。世界的にみても、国会の審議音声を直接認識するシステムは初めての事例です。 このシステムでは、原則すべての本会議・委員会の審議において、発言者のマイクから収録される音声を自動音声認識により書き起こし、会議録の草稿を生成します(図1参照)。なお、音声認識には一定の誤

                衆議院の新会議録作成システムにおける京都大学の音声認識技術の導入
              • OpenAIの音声認識Whisperがすごいので,Google Colabで試してみた - Qiita

                はじめに 2022/09/22にOpenAIが音声認識モデルWhisperを発表しました.Whisperは人間レベルのロバスト性と音声認識の精度を持ったニューラルネットワークであり,オープンソース化されているので誰でも利用可能です! [参考文献] 公式サイト:https://openai.com/blog/whisper 論文   :https://cdn.openai.com/papers/whisper.pdf Github  :https://github.com/openai/whisper Whisperの概要 Whisperは68万時間分の大規模なデータセットで学習された自動音声認識モデルであり,アクセントやバックグラウンドノイズ,および専門用語に対する堅牢性が向上しています.アーキテクチャは,encoder/decoder Transformerとして実装されており,30秒ご

                  OpenAIの音声認識Whisperがすごいので,Google Colabで試してみた - Qiita
                • Chrome 11β公開、音声認識に対応 ロゴも変更

                  Chrome 11βは音声入力APIをサポートしており、Web開発者は音声-テキスト変換機能を持つWebアプリを開発できる。 米Googleは3月22日、Webブラウザ「Chrome 11」のβ版を公開した。音声認識に対応する。 同バージョンはHTML音声入力APIをサポートしており、開発者はこのAPIを使って、音声をテキストに変換する機能を持ったWebアプリを開発できる。CSSによる3D効果の表示にGPUアクセラレーションを活用することも可能になっている。 またGoogleはChromeのロゴも変更した。「Web体験をシンプルに」という同ブラウザのコンセプトに合わせて、ロゴをよりシンプルにしたとしている。

                    Chrome 11β公開、音声認識に対応 ロゴも変更
                  • 長文を途切れなく口述筆記できる「音声認識装置」アプリ

                    以前にも何回も書いたとおり、私は音声認識でブログを書くことがよくあります。車に乗って通勤しているときに、走っている間に次の一段落について考えを立てて、赤信号で止まったときに一段落ずつ文章を追加していきます。 もちろんそのまま投稿することはまれで、いい間違いやミスタイプ、あるいは語彙や句読点を調整してからでないと記事にはなりませんが、アイデアを頭のそとに追い出しておけば、後で編集するのは楽です。こうして車の中でブログの8割ぐらいを書いてしまえば、あとでとても楽ができるわけです。 iOSの音声認識機能はとてもよくできていて、ほとんどの場合は直接EvernoteやUlysssesなどといったアプリに文章を後述できるのですが、長い文章をいちどに認識させていると途中で切れてしまうという制限があります。やってみるとわかりますが、途中で途切れてしまうと、同じことをもう一度途中から口述するのはなかなか大変

                      長文を途切れなく口述筆記できる「音声認識装置」アプリ
                    • 「アレクサ、頭が痛いの…」 音声認識で医療情報提供へ 英政府がアマゾンと提携

                      米アマゾン・ドットコムの人工知能(AI)アシスタント「アレクサ」を搭載したスマートスピーカー「エコー・プラス」(2018年9月20日撮影、資料写真)。(c)Grant HINDSLEY / AFP 【7月11日 AFP】英政府は10日、米アマゾン・ドットコム(Amazon.com)と提携し、同社の人工知能(AI)アシスタント「アレクサ(Alexa)」を通じて英国民保健サービス(NHS)の医療情報を提供すると発表した。世界初の試みだという。 「アレクサ、インフルエンザの症状を教えて」──英国民は間もなく、こんなふうにAIアシスタントに話し掛けるだけで欲しい情報を得られるようになる。 長時間労働を強いられている医師たちや、インターネットでの誤った医療情報の拡散を懸念する医療専門家からは、サービス開始を歓迎する声が相次いでいる。 一方、プライバシー面から、アマゾンがユーザーの医療データを収集して

                        「アレクサ、頭が痛いの…」 音声認識で医療情報提供へ 英政府がアマゾンと提携
                      • ソニー、TOKYO MX、角川が「アニメポータルプロジェクト」。TVアニメの音声認識しスマホに情報

                        • 「このアニメキャラの声優は?」をAIが解決 音声認識でせりふを分析 21年に新サービス

                          人材事業などを手掛けるディップは12月23日、アニメの視聴中にスマートフォンをテレビなどにかざすと、キャラクターを担当する声優を検索・表示するアプリ「ANIVO」を発表した。AIが音声認識でせりふを分析し、声優を判定するという。2021年春に提供を始める予定。 スマホにキャラクターのせりふを聞かせると、AIが音声認識技術でテキスト化。ディップが独自に構築した、アニメのせりふを集めたデータベースと照合し、キャラクターの担当声優を検索して表示する。 検索結果には、該当する声優が過去に出演した作品や、その作品が視聴できる動画配信サービスのリンクも掲載。データベースは著作権法上の利用条件を満たしており、過去のサービスでも利用したことがあるという。 コロナ禍による外出自粛の影響でアニメを見る機会が増えたが、好きになったキャラクターの声優が分からない人の利用を見込む。まずはiOS向けに配信し、追ってA

                            「このアニメキャラの声優は?」をAIが解決 音声認識でせりふを分析 21年に新サービス
                          • Googleが音声認識技術を使ったGoogle Audio Indexing(GAUDI)を公開:渡辺隆広のサーチエンジン情報館

                            本日、Google Labsにて、音声認識技術を使って動画コンテンツ内の音声を検索できるGAUDI: Google Audio Indexingベータ版が公開されました。 すでにBlinkxなど動画検索技術に特化した会社が行っていることと同様に、動画中で交わされている言葉をテキストに変換し、それを対象にキーワード検索ができるようにしたものです。検索対象の語句が出現する場所から再生することももちろん可能です。この分野でのGoogleはサービスリリースが遅れ気味でしたが結局他の会社を買収するのではなく自社開発で挑んできました。 動画検索技術はまだまだ解決しなければいけない課題が山積しています。動画制作者やユーザーが動画ファイルに追加するメタ情報やタイトル、説明文の情報ではユーザーが求める情報を探し出すには情報が限定的すぎて限界がありますし、ニコニコ動画の説明文やタグを見ればわかるようにユーザー

                              Googleが音声認識技術を使ったGoogle Audio Indexing(GAUDI)を公開:渡辺隆広のサーチエンジン情報館
                            • iPhoneの無料アプリ「音声認識Mail」すげえ – creamu

                              Shazam以来すごいアプリを最近使っています。 音声認識Mailっていうアプリで、iPhoneに向けて話すと音声をテキストに変換してくれます。 無料だし精度は低いのかな、と思ってたんだけど、結構高い!普通に正確に変換してくれたりしてびびります。 「メールに転送」ボタンを押すと、テキストが自動的にメール本文に貼付けられます。 家ではちょい使っていこうかな。 これを応用して◯◯◯とか、考えようっと。 あと最近はPaper Tossっていうゲームがなかなかおもろいですー。 何かいいのあったら教えてくださいm(_ _)m

                              • AT&T、音声認識技術「Watson」の一部APIを公開へ

                                AT&Tは何年も前から音声認識の分野に携わっている。そして今、同社はこれまでの成果を他者と共有したいと考えている。 同社は米国時間4月19日、いくつかの「AT&T Watson Speech API」を6月に開発者に公開すると発表した。開発者はAPIを使って、AT&TのWatson音声認識テクノロジを利用する新しいアプリやサービスを構築できるようになる。 AT&Tがリリースを予定している第1弾のAPI群は、ウェブ検索やQ&A、SMS、ディクテーションなどの分野に関連するものだ、と同社は述べた。さらに、同社は「ユーザーの話し言葉をキャプチャした後、文字に起こすためにネットワークに送信」することを望む開発者向けに、ソフトウェア開発キット(SDK)も提供する予定だ。そのSDKを使えば、Watsonの既存アプリへの統合が容易になるはずだ、とAT&Tは話している。 モバイル分野ではAppleの「Si

                                  AT&T、音声認識技術「Watson」の一部APIを公開へ
                                • [噂]iPhone 5 の本命機能!? 話しかけると何でも声で教えてくれる音声認識コマンド「アシスタント」機能

                                  [噂]iPhone 5 の本命機能!? 話しかけると何でも声で教えてくれる音声認識コマンド「アシスタント」機能2011.09.28 12:30 mayumine アメリカのメディア9to5Macから、次世代iPhoneに関する大本命ニュースがやってきました。アップルは次世代iPhoneに「アシスタント(Assistant)」という、iPhoneがユーザーに話しかけてきて何でもやってくれるを搭載するというのです。 この「アシスタント」機能は、去年アップルがシリ(Siri)という企業を買収した時から搭載されるんじゃないかと噂されていました。この機能の動作には iPad 2 と同じA5デュアルコアプロセッサに、1GBのRAMが必要とされ「機能やSDKについて詳しい人物」によればこの「アシスタント」機能は非常に便利なものであると9to5Mac は記しています。 例えばユーザーが「午後7:30にマー

                                    [噂]iPhone 5 の本命機能!? 話しかけると何でも声で教えてくれる音声認識コマンド「アシスタント」機能
                                  • GoogleのAI「Gemin 1.5 Pro」が180カ国で利用可能に。音声認識も対応

                                      GoogleのAI「Gemin 1.5 Pro」が180カ国で利用可能に。音声認識も対応
                                    • 日本語OK、声でメールを書けるiPhoneアプリ「音声認識メール」 | パソコン | マイコミジャーナル

                                      iPhoneに日本語で話しかけてメールを作成できる「音声認識メール Ver0.9」 アドバンスト・メディアは27日、日本語音声で文字入力およびメール作成が可能なiPhoneアプリ「音声認識メール Ver0.9」をリリースした。対応デバイスはiPhone (マイク非搭載のiPod touchはサポート外)、動作環境はiPhone OS 2.2以降。 音声認識メールは、日本語対応の音声認識システムのクライアントソフト。iPhone内蔵のマイクで入力した音声データは、ネットワーク経由で同社サーバへ送信、クライアントであるiPhoneへ結果を返すことで日本語変換機能を提供する。入力した文章は、iPhoneに標準装備のメールソフト (Mobile Mail) に転送することで、メールとして送信できる。 音声認識機能で入力した文字列は、ソフトウェアキーボードにより修正可能。修正内容は自動的に音声認識辞

                                      • 音声認識・声紋認証 | ニュアンス・コミュニケーションズ・ジャパン | Nuance JP

                                        NuanceのAIソリューションは、働き方や繋がり方を改革し、相互支援によって組織の効率性を高め、世界に与えるプラスの影響をさらに促進させます。 成果重視のAIで未来を築く 私たちは、業界をリードするAIと深い専門知識で、お客様の最大の課題を解決し、組織の業績を加速させます。実績あるヘルスケアソリューションから、 安全なカスタマーエンゲージメントソリューションまで、お客様のデジタル変革を加速させるお手伝いをさせて頂きます。

                                          音声認識・声紋認証 | ニュアンス・コミュニケーションズ・ジャパン | Nuance JP
                                        • グーグルの音声認識技術--進歩の歴史と新たな挑戦

                                          カリフォルニア州マウンテンビュー発--GoogleのMike Cohen氏は、コンピュータを声で操作しようとする誰もが、ひどい音声翻訳に笑ったり不満のため息をついたりせずに済むようになるまで満足しないだろう。 音声技術分野の第一人者であるCohen氏は、音声技術を可能な限り多くの製品に導入しつつ科学として進歩させるというGoogleの取り組みの責任者を務めている。同氏は米CNETとの先日のインタビューで、音声技術の分野でGoogleが目指すものについて語り、「Googleの使命は世界の情報を整理することであり、世界の情報の多くは話し言葉であることがわかっている」と述べた。 Googleは、コンピューティングの世界はモバイルデバイスやブラウザベースのアプリケーションにシフトしつつあるという同社の展望に沿った形で、音声認識技術を生み出そうとしている。つまり、負荷の高い処理はデータセンターで実行

                                            グーグルの音声認識技術--進歩の歴史と新たな挑戦
                                          • IBM、音声認識の誤り率でMSの記録更新--「人と同等」レベルには未達と判断

                                            印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます この誤り率は、人間が会話中に聞き落とす20単語につき1単語というおおよその率に匹敵する。Microsoftは2016年10月、IBMが2016年に発表していた最高記録である6.9%を破る5.9%という記録を出したが、今回IBMが再び上回った格好だ。 だがIBMは、会話を理解するという点で機械が人間を上回るのはもう少し先になる可能性があると強調している。Microsoftは単語誤り率が5.9%を記録した際に、「ヒューマンパリティ(人間と同程度であること)」に到達したとしていたが、最新の調査によりMicrosoftを祝福するのはまだ早いことがわかったとIBMは述べている。 「われわれはまだシャンパンを開けて祝う段階にはない」とIBMの首席リ

                                              IBM、音声認識の誤り率でMSの記録更新--「人と同等」レベルには未達と判断
                                            • 【iPhone】音声認識アプリ3種の変換精度を比較してみた - busidea

                                              前回ご紹介したドラゴンディクテーションで、「へぇ、最近の音声認識は本当に進化したもんだ」としきりに感心していたら、 ”いやいや、他にも優秀な音声認識アプリがあるよ!”という声を聞きまして、さっそく比べてみることにしました。 今回比較するのは、『音声認識メール クラウド』『DragonDictation』『TwitterクライアントTweetMeの音声認識機能』です。 音声認識アプリの特徴 ■音声認識メール クラウド 有料:115円 サーバ通信:あり 辞書機能:あり 句読点の自動認識:あり(一部) 連携投稿先:メール、SMS、MAP、Safari、Twitter、Evernote、Mixiボイス ■DragonDictation 無料 サーバ通信:あり 辞書機能:なし 句読点の自動認識:なし 連携投稿先:メール、Facebook、Twitter ■TweetMe(Twitterクライアント)

                                                【iPhone】音声認識アプリ3種の変換精度を比較してみた - busidea
                                              • iOSのBuild In Sound Analysisを使った音声認識で著作権侵害を防ぐ!

                                                ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。PayPayフリマでiOSアプリ開発を担当している續橋(@tsuzuki817)です。 PayPayフリマは2021年に画像の代わりに動画で商品の動きや細部を伝えられる動画出品機能をリリースしました。(プレスリリース:PayPayフリマ、5~30秒の動画で商品の動きや細部を伝える「動画出品」機能を提供開始) 動画投稿できるということは、撮影時にBGMなどの音楽が混入すると著作権侵害になる可能性もあります。今回は、iOSの音声認識機能「Build In Sound Analysis」を活用してユーザーに注意を促せるようにした事例を紹介します。 PayPayフリマとは? PayPayフリマは、誰でも気軽に、安心して個人間取

                                                  iOSのBuild In Sound Analysisを使った音声認識で著作権侵害を防ぐ!
                                                • Julius/音声認識関連 超入門用自分用まとめ - Qiita

                                                  Juliusという神ソフトウェアがこの世の中にあったことに驚いたので、これに関する神記事群をあつめてる途中マン。(音声認識…深い…(ゴクリ。)) Julius http://julius.sourceforge.jp 連続音声認識ソフトウエア Julius Open-Source Speech Recognition Software Julius http://www.ar.media.kyoto-u.ac.jp/lab/bib/review/KAW-JSAI05.pdf 凹みTips http://tips.hecomi.com/ http://tips.hecomi.com/archive/category/Julius チュートリアル JuliusとJulian http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/2

                                                    Julius/音声認識関連 超入門用自分用まとめ - Qiita
                                                  • TechCrunch Japanese アーカイブ � TwitterFone:カンタン音声認識でTwitter書き込み

                                                    Welcome to Startups Weekly — Haje‘s weekly recap of everything you can’t miss from the world of startups. Sign up here to get it in your inbox every Friday. Well,…

                                                      TechCrunch Japanese アーカイブ � TwitterFone:カンタン音声認識でTwitter書き込み
                                                    • 【2019年12月版】ラズパイDJにもっとリスナーの声を届けたい!【Angularで音声認識!】 - Qiita

                                                      株式会社ピーアールオー(あったらいいな!を作ります) Advent Calendar 2019 の25日目。2019年のアドベントカレンダーのフィナーレを飾る、筆者のマジであったらいいな!はこちら〜! リスナーの声を届けたい! → DJに"声"でリクエストしてみよう! 前回の記事での DJ-Bot は Bot と言いつつ固定のキーワードしか持てないのでリスナーの"声"が届かないDJなのですよね・・・ ぢゃ〜、Chrome搭載の音声認識APIを使って、リスナーの"声"をガチでラズパイDJに届けてみましょうか!(マジすか?!) ということで…今回はAngularにて、"マイクからの音声を文字列に変換して送信する"リクエストフォームを作成いたします。 さらにこれをNode-REDにそのまま載せてみたいと思います。 1. Node-RED を SSL 対応 & 静的サイト有効化 まずはNode-R

                                                        【2019年12月版】ラズパイDJにもっとリスナーの声を届けたい!【Angularで音声認識!】 - Qiita
                                                      • 音声認識を使ってAdobe Premiere Proの動画テロップを光速で作成する方法 - ICS MEDIA

                                                        動画を作るときに、テロップや字幕をつけることがあると思います。音声に視覚情報を加えることで情報の伝達力を強くしたり緩急をつけたり、また電車の中や音が出せない場所での視聴や、難聴の方への配慮にもなります。 しかし、音声を聞いてテキスト入力を何度も繰り返して・・・とても時間がかかりますし、楽しい作業でもありません。そこで今回は、音声の文字起こしソフトを使って、さくっとテロップや字幕作成の方法を紹介します。 こちらが作成する動画イメージです。この手法はFinal Cut Proでも適用できますが、今回はAdobe Premiere Pro向けに説明します。 Vrewを使って文字起こし Vrewは人工知能を活用した動画編集プログラムです。一般的なタイムラインを用いた動画編集とは異なり、文字起こしされた音声を元に、文章を編集するように動画を作成できるのが特徴です。ユーザー登録をすれば無料で利用でき、

                                                          音声認識を使ってAdobe Premiere Proの動画テロップを光速で作成する方法 - ICS MEDIA
                                                        • 音声認識を使って効率的にテープ起こしをする、現在の個人的おすすめ(3) - 音声認識ラボ by 東京反訳

                                                          「“音声認識を使って効率的にテープ起こしをする”をテーマに、現在の代表的な音声認識ソフトやサービス、テープ起こしをする際におすすめのもの、音声認識を使ってテープ起こしを効率的にする方法などについて、まとめる」 次の表は(1)でも紹介した、代表的な音声認識ソフトやサービスをまとめたものだ。スタンドアロン型のものだと選択肢は少なく対応環境も限られるが、クラウド型のものも含めるとユーザーは多くの選択肢からその環境や用途に合ったものをチョイスできるようになる。 機密情報を含んだ音声を起こす場合は(2)で述べたように基本的にオフラインで音声認識が使えるスタンドアロン型のものをおすすめするが、クラウド型のものはその仕組みからスタンドアロン型のものより高精度な認識が期待できるだけでなく、無料あるいは安価で使用できるものも多い。特に機密情報を含んだ音声でもなく、またクラウド型の音声認識を使っても問題ないと

                                                            音声認識を使って効率的にテープ起こしをする、現在の個人的おすすめ(3) - 音声認識ラボ by 東京反訳
                                                          • Whisperを使ったリアルタイム音声認識と字幕描画方法の紹介 | さくらのナレッジ

                                                            OBS WebSocketの設定 OBSのWebSocket機能を有効にします。WebSocket機能は比較的新しい機能で、使ったことがない方も多いと思います。LAN内のコンピュータからOBSの各種プロパティを取得・変更できます。各種プログラミング言語から直接APIを呼べるので、「音声認識の結果を即時に画面に反映する」ような、頻繁に変更される値の更新に適しています。 設定方法は、OBSのメニューから「ツール」-「obs-websocket設定」をクリックし、出てきたダイアログの一番上のチェックボックス「WebSocketサーバーを有効にする」をオンにします。そして「パスワードを生成する」を押します。後述のプログラムで定数として使用します。これでWebSocket機能を使用できるようになります。 Pythonのプログラムから字幕変更 PythonのプログラムからOBSにWebSocketで接

                                                              Whisperを使ったリアルタイム音声認識と字幕描画方法の紹介 | さくらのナレッジ
                                                            • 音声認識とは | 基本知識、仕組み、ディープラーニングとの関係、活用事例 | Ledge.ai

                                                              サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                                                音声認識とは | 基本知識、仕組み、ディープラーニングとの関係、活用事例 | Ledge.ai
                                                              • MSの音声認識技術--言葉の「意味」の理解に向けた新たな取り組み

                                                                Microsoftは、自社の音声プラットフォームをもう少し決定的なものにしたいと考えている。 Microsoftの音声技術は長年にわたって、人が何を話しているのかを理解する能力を高め、同時に、音声による検索やコマンドを携帯電話以外のデバイスでも行えるようにしてきた。しかし、同じくらい重要な要素が欠けていた。それは、言葉の意味やその背後にある文脈をより深く理解することだ。 そのためにMicrosoftは、「会話理解(Conversational Understanding:CU)」と呼ばれる技術の構築に取り組んでいる。CUは、音声、辞書、文法構造、機械学習を組み合わせて、ユーザーが話していることをよりよく理解し、システムが意味や文脈をすべて考慮した答えを出せるようにしようというものだ。 Microsoftの製品やサービスで、これを実現したものはまだ登場していない。しかし、Microsoftの

                                                                  MSの音声認識技術--言葉の「意味」の理解に向けた新たな取り組み
                                                                • テープ起こしをするなら音声認識が最強 (1/4) - ITmedia ビジネスオンライン

                                                                  働き方改革が言われて久しいが、本当に大切なのは残業を減らすことではなく、業務効率を改善することだ。となると、これまでと同じ業務をいかに短い時間で済ませるかがポイントになる。今回は、会議などで録音した会話データを、議事録として文字に起こす、いわゆるテープ起こしのうまい方法をお伝えしたい。 ぜひ試してほしい音声認識 まず前提知識として。最初に試してほしいのは音声認識だ。iPhoneなりAndroidなりのスマホを持っていると思う。その文字入力画面でマイクのボタンを押すと音声入力モードになる。ここでスマホに話しかけると、音声が認識されて文字が出てくる。 キーボードで文字を打ち込む早さは人それぞれだが、正直音声認識入力の早さにかなう人はまずいない。この早さを一度知ってしまうと、キーボードで打つのがおっくうになるほどだ。 音声認識システムにはいくつかの種類があるが、テープ起こしの際に気になる特徴を挙

                                                                    テープ起こしをするなら音声認識が最強 (1/4) - ITmedia ビジネスオンライン
                                                                  • 作ってきた音声認識家電コントロールシステムのまとめ - 凹みTips

                                                                    はじめに 今年初めに公開された引越ししたので未来なお部屋を作ってみた。 - お前の血は何色だ!! 4 に触発され、リモコンはオワコン。音声認識でお部屋の家電を操作してみた。 - 凹みTips なる記事を書きましたが、最近はiRemocon も音声認識対応し、FHC や Pluto など各種音声リモコンも製品化されてきまして、音声家電操作も目新しいものではなくなってきた気がします。 前述のエントリの公開以来、Node.js とか勉強しながら約 1 年間チマチマとやってきましたが、もうすぐ発売する FHC を注文したこともあり、取り敢えず現状のシステムを公開して、FHC 発売後はそちらにマージ & 別ネタの開発に移ろうかなー、と思っています。で、今どんな感じなのよ、というものをまとめてみました。 ソースコード hecomi/tsubakumi · GitHub システム概観 Node.js で

                                                                      作ってきた音声認識家電コントロールシステムのまとめ - 凹みTips
                                                                    • 音声認識技術はどこに向かうのか? (1/5) | Telescope Magazine

                                                                      iPhoneのSiriを始め、音声認識技術を活用したユーザーインターフェイスが注目を集めている。ビッグデータの活用による音声認識処理速度の高速化や、声の状態から感情やストレスを理解する技術など、新しい技術の開発や応用が進んでいる。なぜ、今、音声認識なのか? これまでの開発と研究の歴史を振り返りながら、注目が高まる音声認識の可能性を探る。 人間の音声を数式でモデル化する 音声入力インターフェイスが、急速に注目を集め始めている。 日本でも1990年代からパソコン用の音声入力ソフトウェアはあったし、音声認識で電話帳を検索できる携帯電話端末もドコモから発売されていたが、それほど話題に上ることはなかったように思う。 米国では1990年代から音声認識技術を利用した製品やサービスが普及してきたが、一般向け製品としてブレークしたのは、アップルのiPhoneに搭載されたSiriということになるだろう。iPh

                                                                        音声認識技術はどこに向かうのか? (1/5) | Telescope Magazine
                                                                      • 連続音声認識システムに使用するアルゴリズム

                                                                        連続音声認識システムに使用するアルゴリズム

                                                                        • Google製「Teachable Machine」の機械学習で簡単に音声認識データを作る ~TensorFlowの技術を「Scratch」で活用【どれ使う?プログラミング教育ツール】

                                                                            Google製「Teachable Machine」の機械学習で簡単に音声認識データを作る ~TensorFlowの技術を「Scratch」で活用【どれ使う?プログラミング教育ツール】
                                                                          • カヤックと慶大大学院 会議発言を音声認識、机上で映像化… 発想喚起オフィス :ニュース - CNET Japan

                                                                            インターネットサービス開発のカヤック(神奈川県鎌倉市)は慶応義塾大学大学院メディアデザイン研究科と共同で、柔軟な発想力を高める会議手法「ブレーンストーミング」をサポートするオフィスシステムを開発した。会議中の発言を音声認識し、関連情報や映像が机上に映し出される仕組み。想像力や発想力を高める新システムとして早期実用化を目指す。 具体的には会議室に小型マイクを設置し、参加者の発言をコンピューターが自動認識し、インターネットから検索した関連情報やイメージ映像を天井部に設置したプロジェクターから机上に、映し出す。参加者同士で情報共有化がはかれるほか、議論が行き詰まったときに、ヒントを得られる可能性もある。 「環境を変えると発想力が高まることがある」(カヤック)ため、発光ダイオード(LED)で色彩を演出したり、異空間の雰囲気を醸しだし、想像力を引き出すという。 たとえば、2時間の会議を行う際、

                                                                            • Google Cloud上でGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみた | DevelopersIO

                                                                              こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。 この記事は、ブログリレー『Google CloudのAI/MLとかなんとか』の3本目の記事になります。 今回は、Vertex AIからGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみたいと思います。 Chirpについて 以下に詳しい説明があります。 Chirp: Universal speech model  |  Cloud Speech-to-Text V2 documentation  |  Google Cloud ChirpはGoogleの次世代音声認識モデルで、現在の音声モデルとは異なるアーキテクチャで学習させたモデルとなっているようです。 Google CloudではCloud Speech-to-Text V2における一つのモデルとして使用できます。その他

                                                                                Google Cloud上でGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみた | DevelopersIO
                                                                              • 音声認識ダンボーくん!Raspberry Piを使ったダンボー型の音声認識システム! | Maker is You!

                                                                                Raspberry Piを使ったダンボー型の音声認識システムです。製作者はミントさん。ダンボーに呼びかけると反応して、テレビの電源を消したり点けたり、部屋の電気の制御や、室温と湿度を元に最適な温度でエアコンをかけてくれます。また室内からだけでなく、スマホからも対話式で操作することができ、家に付く直前にエアコンをかけることができるそうです。実際に動いている様子は以下動画を見てみてください。 ダンボーくん。かわいい。 水耕栽培の電源オンオフ機能もあります。 また、水晶の色は天気を示しているそうです。赤は晴、青は雨、白は曇、緑は雷、雪、台風に対応して教えてくれるそうです。 今日の天気は雪。 平常時のLEDは青、電車遅延が発生すると赤のLEDが光る通知システム。 電車遅延のアイデアを教えてくれるアイデアは素晴らしいです。似たような物だとイギリスの方がメトロの運行状況を確認できるガジェットを作ってい

                                                                                  音声認識ダンボーくん!Raspberry Piを使ったダンボー型の音声認識システム! | Maker is You!
                                                                                • そろそろ本腰入れとく!?音声認識によるランニング仕事術 - 世界一TikTokを愛する男のブログ

                                                                                  はじめに 今年の上旬に野口悠紀雄さんの『話すだけで書ける究極の文章法 人工知能が助けてくれる!』(以後、「野口本」)や、慎泰俊さんの『ランニング思考──本州縦断マラソン1648kmを走って学んだこと』を読んで、「ランニング中にも仕事をする」という人がいることを知り衝撃を受けた。 野口さんは、驚異的な量の連載記事や書籍執筆で有名だが、最近は毎朝のジョギングの時間が最も執筆活動が進む時間帯、ということを明かしている。本来はジョギングというのは息抜きにやるもの、という概念が私にはあったが、野口さんにとっては一日で最も気合いを入れる時間帯だそうだ。 2冊目は本州縦断ランニングの日記のようなエッセーのような本であり、私も良くランニングをするので、ランナーとしてすごく面白かったのだが、「起業家として超絶忙しい中、1648kmをどのようにして走りきったのか?」というコツが数々紹介されていて別の意味でも面

                                                                                    そろそろ本腰入れとく!?音声認識によるランニング仕事術 - 世界一TikTokを愛する男のブログ