並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 25 件 / 25件

新着順 人気順

speech-to-textの検索結果1 - 25 件 / 25件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

speech-to-textに関するエントリは25件あります。 pythontextAI などが関連タグです。 人気エントリには 『OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる』などがあります。
  • OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる

    OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Robust Speech Recognition via Large-Scale Weak Supervision – GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は

      OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
    • Speech-to-Text Webcam Overlay

      *認識結果が確定したタイミングで反映されます。テキストの編集・コピーも可能です。 **認識中にEnterキーを押すと,認識を止めて文を区切ることができます。日本語の場合は文末に句点が付与されます。 よくある質問・ソースコード: GitHub 音声認識は Web Speech API を利用しています。 カメラやマイクが機能しないとき → ページの再読み込みや,ブラウザの設定を確認してください: Chrome ヘルプ 「ログをダウンロード」でダウンロードされるファイルは,アクセスしているユーザーのブラウザで生成されています。

        Speech-to-Text Webcam Overlay
      • Google Cloud Speech-to-Text APIをいろいろ調査してみる - OPTiM TECH BLOG

        こんにちは、2020年新卒入社予定の山口です!修論と引越し準備とアルバイトで慌ただしい日々を過ごしています。今日は業務で触った、Google製API Google Cloud Speech-to-Text API について皆さんと共有できればと思います。 Google Cloud Speech-to-Text API とは APIを導入していく GCP側 PC側 実際に試してみる 認識モデルを変更してみる マルチチャンネルで試してみる ファイル形式・サンプリング周波数を比較してみる ナレーション音声(「本日は〜」の音声です。) 走れメロス_朗読 おわりに Google Cloud Speech-to-Text API とは Google Cloud Speech-to-Text API は名前の通り、音声データから文字起こしをするAPIです。この音声データは私たちが日頃聞いているような音声

          Google Cloud Speech-to-Text APIをいろいろ調査してみる - OPTiM TECH BLOG
        • 「桃太郎デスマッチ」 ー Azure / AWS / GCP 学習済みAIサービスで「桃太郎」を Speech To Text してみた話 - Qiita

          「桃太郎デスマッチ」 ー Azure / AWS / GCP 学習済みAIサービスで「桃太郎」を Speech To Text してみた話AWSAzureCognitiveServicesSpeechToTextGoogleCloud はじめに 2019年1月23日(木) に Microsoft 主催の Ignite The Tour : Osaka に コミュニティ登壇させていただきました。 本記事は、上記イベントで発表させていただいた LT ( ライトニングトーク ) の内容を記事にしたものです。 ※また、本記事では、3大クラウドプラットフォーム ( Azure / AWS / GCP ) の Speech To Text サービスの性能を比較し、ランク付けをさせていただいておりますが、使用する音声の録音環境、録音デバイス、その他環境の差により、当記事の検証結果と異なる場合がございます

            「桃太郎デスマッチ」 ー Azure / AWS / GCP 学習済みAIサービスで「桃太郎」を Speech To Text してみた話 - Qiita
          • Introducing speech-to-text, text-to-speech, and more for 1,100+ languages

            Introducing speech-to-text, text-to-speech, and more for 1,100+ languages Equipping machines with the ability to recognize and produce speech can make information accessible to many more people, including those who rely entirely on voice to access information. However, producing good-quality machine learning models for these tasks requires large amounts of labeled data — in this case, many thousan

              Introducing speech-to-text, text-to-speech, and more for 1,100+ languages
            • GitHub - 1heisuzuki/speech-to-text-webcam-overlay: Web Speech API で音声認識した結果の字幕をWebカメラ映像に重ねて表示するWebページ

              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                GitHub - 1heisuzuki/speech-to-text-webcam-overlay: Web Speech API で音声認識した結果の字幕をWebカメラ映像に重ねて表示するWebページ
              • 【Speech to Text】Transcribeが日本語に対応しました!【日本語音声を文字へ】 | DevelopersIO

                こんにちは。コンサル部のKyoです。 Amazon Transcribeで日本語がサポートされましたので、検証してみました。 TranscribeはいわゆるSpeech to Textです。 Amazon Transcribe Now Supports Speech-to-text in 7 Additional Languages 今回対応したのは以下の7つの言語で、合計31の言語に対応しました。 Gulf Arabic, Swiss German, Hebrew, Japanese, Malay, Telugu, and Turkish languages やってみる Speech to textなので、元となる音声ファイルを準備します。 今回はSimple Recorderを利用し、私が読み上げを行ってみました。 注意点として、Simple Recorderのデフォルト設定では録音し

                  【Speech to Text】Transcribeが日本語に対応しました!【日本語音声を文字へ】 | DevelopersIO
                • Azure Cognitive Service Speech to Text API を調査し、Google Cloud Speech-to-Text APIと比較していく - OPTiM TECH BLOG

                  こんにちは、引越しなどの一連のゴタゴタが済んだ 2020年新卒入社予定の山口です。 今回はAzure Cognitive Service Speech to Text API(以下AST)について調査を行ったので、その結果などを報告します。またGoogle Cloud Speech-to-Text API(以下GST)と比較も行ったので、それについても記述していきます。 ASTの導入 ASTの対応ファイル形式などの調査 音声ファイル文字起こしプログラムの作成 ASTとGSTの比較 1. 実行結果の比較 2. 処理速度の比較 3. 料金面での比較 まとめ ASTの導入 今回はこのリンクの説明を元に導入をしていきます。 Azure側の設定 説明リンク Azureアカウントの作成(microsoftアカウントが必要) リソースの作成 今回は以下の画像のようにアカウントを作成しました。 リソースを

                    Azure Cognitive Service Speech to Text API を調査し、Google Cloud Speech-to-Text APIと比較していく - OPTiM TECH BLOG
                  • 田中康夫 Speech To Text Online on Twitter: "@loveyassy 「#しょぼいウイルスなのに全世界が大騒ぎ」の東浩紀(#現在ツイ垢失踪中)・三浦瑠麗@lullymiura・小林よしのり(ツイ垢不明)3賢人様の世紀の大鼎談ダイジェスト版です!… https://t.co/QXrXeOHBH2"

                    @loveyassy 「#しょぼいウイルスなのに全世界が大騒ぎ」の東浩紀(#現在ツイ垢失踪中)・三浦瑠麗@lullymiura・小林よしのり(ツイ垢不明)3賢人様の世紀の大鼎談ダイジェスト版です!… https://t.co/QXrXeOHBH2

                      田中康夫 Speech To Text Online on Twitter: "@loveyassy 「#しょぼいウイルスなのに全世界が大騒ぎ」の東浩紀(#現在ツイ垢失踪中)・三浦瑠麗@lullymiura・小林よしのり(ツイ垢不明)3賢人様の世紀の大鼎談ダイジェスト版です!… https://t.co/QXrXeOHBH2"
                    • GitHub - reriiasu/speech-to-text: Real-time transcription using faster-whisper

                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                        GitHub - reriiasu/speech-to-text: Real-time transcription using faster-whisper
                      • 音声認識によるリアルタイム字幕&翻訳が可能な「Speech to Text Webcam Overlay」をZoomで使ってみた - DENET 技術ブログ

                          音声認識によるリアルタイム字幕&翻訳が可能な「Speech to Text Webcam Overlay」をZoomで使ってみた - DENET 技術ブログ
                        • GitHub - snakers4/silero-models: Silero Models: pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly simple

                          Silero Models: pre-trained enterprise-grade STT / TTS models and benchmarks. Enterprise-grade STT made refreshingly simple (seriously, see benchmarks). We provide quality comparable to Google's STT (and sometimes even better) and we are not Google. As a bonus: No Kaldi; No compilation; No 20-step instructions; Also we have published TTS models that satisfy the following criteria: One-line usage; A

                            GitHub - snakers4/silero-models: Silero Models: pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly simple
                          • DeepSpeech 0.6: Mozilla’s Speech-to-Text Engine Gets Fast, Lean, and Ubiquitous – Mozilla Hacks - the Web developer blog

                            DeepSpeech 0.6: Mozilla’s Speech-to-Text Engine Gets Fast, Lean, and Ubiquitous The Machine Learning team at Mozilla continues work on DeepSpeech, an automatic speech recognition (ASR) engine which aims to make speech recognition technology and trained models openly available to developers. DeepSpeech is a deep learning-based ASR engine with a simple API. We also provide pre-trained English models

                              DeepSpeech 0.6: Mozilla’s Speech-to-Text Engine Gets Fast, Lean, and Ubiquitous – Mozilla Hacks - the Web developer blog
                            • GitHub - coqui-ai/STT: 🐸STT - The deep learning toolkit for Speech-to-Text. Training and deploying STT models has never been so easy.

                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                GitHub - coqui-ai/STT: 🐸STT - The deep learning toolkit for Speech-to-Text. Training and deploying STT models has never been so easy.
                              • Amazon Transcribe Now Supports Speech-to-text in 7 Additional Languages

                                Amazon Transcribe now supports transcription for audio and video in Gulf Arabic, Swiss German, Hebrew, Japanese, Malay, Telugu, and Turkish languages. Amazon Transcribe is an automatic speech recognition (ASR) service that makes it easy to add speech-to-text capability to applications. Organizations can use Amazon Transcribe to create text transcripts of audio and video files quickly. Amazon Trans

                                  Amazon Transcribe Now Supports Speech-to-text in 7 Additional Languages
                                • Cloud Speech-to-Text の新たな対応言語でも改良されたモデルと機能が利用可能に | Google Cloud 公式ブログ

                                  ※この投稿は米国時間 2020 年 3 月 6 日に、Google Cloud blog に投稿されたものの抄訳です。 通話分析や動画字幕の自動生成などのスピーチ インターフェースは、人が周囲とやり取りする方法を変貌させ、新たなビジネス機会を創出しています。こうした変化の原動力となり、アイデアの実現を後押ししているのが音声認識技術です。 Google Cloud では、この素晴らしい技術をできる限り広範に利用できるものにするために日々尽力しています。Google Cloud のプロダクトや機能をより多くのお客様に提供し、世界中の企業で便利にご利用いただけるようにするため、このたび、新しい機能、モデル、言語を音声入力システムに導入いたしました。 Google Cloud Speech-to-Text は、ユーザーが送信した長尺、短尺の録音やストリーミングされた音声に含まれる発言を文字変換して

                                    Cloud Speech-to-Text の新たな対応言語でも改良されたモデルと機能が利用可能に | Google Cloud 公式ブログ
                                  • Google Speech to Text APIを使ってブラウザでリアルタイム文字起こしする - Qiita

                                    TD;TL Google Speech to Text APIとWeb Speech APIを併用することで実現する 音声検出のみWeb Speech APIを使い、文字起こし自体はGoogle Speech to Text APIを使うことで、ブラウザ文字起こしにおいてリアルタイム感と精度の高さを両立する 発端 現在開発中のプロダクトの中で、Speech to Textの仕組みを導入するために様々な方法を調べていました。 オンライン会議中の会話を文字起こししたり、アジェンダや議事録を一括で管理できるサービス「Telelogger」というサービスなのですが、コアとなる機能が会議中の会話の文字起こしです。 サービスはWebアプリケーションとして提供するため、ブラウザでの文字起こしを想定しています。 対象ブラウザをGoogle Chromeに絞った上で、最初はWeb Speech APIを試し

                                      Google Speech to Text APIを使ってブラウザでリアルタイム文字起こしする - Qiita
                                    • GoogleのCloud Speech-to-Textでリアルタイムに会話の文字起こし - ASKUL Engineering BLOG

                                      はじめに 初めまして、4月からアスクルに新卒入社しました、「みわすけ」です。 新卒エンジニアとして、まだまだ勉強中ではありますが、今回ヤフーさん主催の「Yahoo! JAPAN Internal Hack Day 17」というイベントに参加させていただきました。 HackDayとは テクノロジーを、もっと身近に、もっと楽しく。Hack Dayは、ものづくりの面白さを体験する祭典です。日本最大級のハッカソンや、注目のコンテンツを揃えた体験ブースなど、盛りだくさんのイベントを毎年開催しています。(https://hackday.jp より) その中で、我々アスクルチームは会議の議事録を取る行為をエンジニアリングで解決しようとなり、24時間で開発していきました。この記事ではその中で「発言を文字起こしする」部分に使用したGoogleのCloud Sppech-to-Textの使い方について解説しま

                                        GoogleのCloud Speech-to-Textでリアルタイムに会話の文字起こし - ASKUL Engineering BLOG
                                      • 議事録担当なんてなくそうよ。Google Cloud Speech -to-Textを使ってみた

                                        はじめまして。 イノベーション本部の田中です。 ここ最近、お仕事では画像認識をやっておりますが、 今回は音声認識のお話です。 皆さん、議事録書くの面倒ではないですか? 楽をしたいなーと思い、 Googleの音声認識(Cloud Speech-to-Text)を試してみたのでご紹介します。 Cloud Speech-to-Textについて機械学習を活用して音声をテキストに変換してくれる、GoogleのAPIサービスです。 音声認識の精度が高く、多くの言語にも対応しているということで評判が良いAPIです。 詳しくは、公式サイトをご確認ください。 (https://cloud.google.com/speech-to-text/?hl=ja) 取り組み内容今回試した内容は大きく2つです。 PCのマイクから認識した音声をリアルタイムでテキストに変換変換したテキストは、Googleスプレッドシートに

                                          議事録担当なんてなくそうよ。Google Cloud Speech -to-Textを使ってみた
                                        • 「桃太郎デスマッチ」 ー Azure / AWS / GCP 学習済みAIサービスで「桃太郎」を Speech To Text してみた話 - Qiita

                                          「桃太郎デスマッチ」 ー Azure / AWS / GCP 学習済みAIサービスで「桃太郎」を Speech To Text してみた話AWSAzureCognitiveServicesSpeechToTextGoogleCloud はじめに 2019年1月23日(木) に Microsoft 主催の Ignite The Tour : Osaka に コミュニティ登壇させていただきました。 本記事は、上記イベントで発表させていただいた LT ( ライトニングトーク ) の内容を記事にしたものです。 ※また、本記事では、3大クラウドプラットフォーム ( Azure / AWS / GCP ) の Speech To Text サービスの性能を比較し、ランク付けをさせていただいておりますが、使用する音声の録音環境、録音デバイス、その他環境の差により、当記事の検証結果と異なる場合がございます

                                            「桃太郎デスマッチ」 ー Azure / AWS / GCP 学習済みAIサービスで「桃太郎」を Speech To Text してみた話 - Qiita
                                          • 2020年4月22日 FNNプライムニュース『ノーベル賞・本庶佑氏 コロナ対策に緊急提言 政府の対策で勝てるか + 韓国の良い所は見習わないと 佐藤正久参議院議員 韓国のコロナ対応を絶賛』 - 田中康夫 Speech To Text Online

                                            [佐藤正久]韓国は感染症に対する危機意識がかなり高いんです。MARSでの教訓もあるので、今回非常に感染症に対する感度、これが高い為に備蓄を含めて、あるいは態勢含めてやはり速いんです。そういう部分がやっぱり、今回我々としての、韓国の良い所は見習わないといけない。後で議論になるいろんな、PCRセンターを含めて韓国は一月からもうやってるんです。今、四月でしょ?で、もう三ヶ月の差があるんです。そのぐらい最初から危機感が高い。 * [竹内友佳]本庶さんは新型コロナウイルスとの戦いが今どういった状況にあるとご覧になっていますでしょうか。 [本庶佑]今仰ったこと、特に佐藤さんが仰ったことはその通りでね、韓国からは大変に見習うことが多いと思いますし、自衛隊、厚労省、こういったとこの連携とか、そういうことはやはりこういう場合にですね、政治家だけでなかなか判断できないから、やはり医療関係の専門家、基礎としてサ

                                              2020年4月22日 FNNプライムニュース『ノーベル賞・本庶佑氏 コロナ対策に緊急提言 政府の対策で勝てるか + 韓国の良い所は見習わないと 佐藤正久参議院議員 韓国のコロナ対応を絶賛』 - 田中康夫 Speech To Text Online
                                            • 大規模コーパスでGoogle Cloud Speech To Text APIの精度検証を行う & アップデート内容の検証 - OPTiM TECH BLOG

                                              どうもこんにちは!新型コロナウイルスの影響で卒業式が中止になった、2020年新卒入社予定の山口です。 今回はGoogle Cloud Speech-to-Text API(以下GST)を大規模コーパスで精度検証した結果と、GSTアップデートの検証内容について共有していけたらと思います。 大規模コーパスでGSTの精度検証を行う JVS (Japanese versatile speech) corpusについて 精度検証について 認識精度の比較 音量ごとによる精度の比較 アップデート検証 話者識別 句読点 2つを同時に試してみると まとめ JVS (Japanese versatile speech) corpus ライセンス表記 過去のGSTに関する記事もどうぞ tech-blog.optim.co.jp tech-blog.optim.co.jp 大規模コーパスでGSTの精度検証を行う

                                                大規模コーパスでGoogle Cloud Speech To Text APIの精度検証を行う & アップデート内容の検証 - OPTiM TECH BLOG
                                              • Researcher Breaks reCAPTCHA With Google’s Speech-to-Text API

                                                Researcher uses an old unCAPTCHA trick against latest the audio version of reCAPTCHA, with a 97 percent success rate. An old attack method dating back to 2017 that uses voice-to-text to bypass CAPTCHA protections turns out to still work on Google’s latest reCAPTCHA v3. That’s according to researcher Nikolai Tschacher, who posted a video proof-of-concept (PoC) of the attack on Jan. 2. CAPTCHA, intr

                                                  Researcher Breaks reCAPTCHA With Google’s Speech-to-Text API
                                                • Azure Cognitive ServicesのSpeech to Textで書き起こしをしてみよう - Qiita

                                                  メリークリスマス!(遅刻) Azure AI Advent Calendar 2019 25日目のエントリーです。 みなさんクリスマスイブからクリスマスにかけていかがお過ごしでしたか? 私は本記事を書くために進捗の6時間を過ごして寝不足です。 さて、今回はAzure Cognitive Servicesの中の一つである、Speech ServiceのSpeech to Textの使い方や使ってみた結果などを紹介していきます。 実際に動かしてみたコードも載せるので、試してみたいけど書くの面倒だし…という方も安心してお読み下さい。 音声変換 - Speech Service - Azure Cognitive Services | Microsoft Docs 用意するもの Azureのサブスクリプション .NET Core 3.0のアプリケーションがビルド出来る環境 書き起こししたい音声 始

                                                    Azure Cognitive ServicesのSpeech to Textで書き起こしをしてみよう - Qiita
                                                  • WatsonのSpeech To Text(STT)をカスタマイズすれば「俺のSTT」を作れるよ - Qiita

                                                    こんにちわ!石田です。たまたま仕事でSTTのカスタマイズの機会があって、Qiitaの記事をみたら「STT入門」的なものは多いけれど、カスタマイズの方法に具体的に言及しているものは割と少なかったので、いまさらながら記事にしました。「AKB関連の発言や用語だけは異常な高精度で認識するSTT」でも「ドリルすな/せんのかいの発話だけを認識できるSTT1」でも、皆様のビジネス要件と趣味ご嗜好にあわせた「俺の・私のSTT」を作ってみたらいかがでしょうか。(簡単ですよ) 要は(TL;DR;) STTとは音声(オーディオ)を文字に変換するWatsonの「文字起こし」サービス 素の(=IBM提供の)STTが知ってるのは一般的な日本語(一般的な辞書)だけ 固有名詞(ex. 会社名・商品名)や業界/趣味/専門用語・独自のいい回しなどは「素の」STTでは認識できないが、簡単に教えることができる。これをモデルのカス

                                                      WatsonのSpeech To Text(STT)をカスタマイズすれば「俺のSTT」を作れるよ - Qiita
                                                    1

                                                    新着記事