並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 16 件 / 16件

新着順 人気順

speech-to-textの検索結果1 - 16 件 / 16件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

speech-to-textに関するエントリは16件あります。 AIカメラtext などが関連タグです。 人気エントリには 『GeminiとSpeech-to-Textで実現する高精度な文字起こし - enechain Tech Blog』などがあります。
  • GeminiとSpeech-to-Textで実現する高精度な文字起こし - enechain Tech Blog

    この記事はenechain Advent Calendar 2024の14日目の記事です。 はじめに こんにちは。enechainで統計・機械学習モデルの構築やLLM(大規模言語モデル)の活用推進を担当している@udon_tempuraです。 私達のチームでは、以前紹介した会議動画要約のノウハウを活用し、 社内用の動画・音声文字起こしツールを構築・運用しています。 本記事では、その精度向上の仕組みについて紹介します。 実装も比較的少なく実現できたため、セキュリティなどの関係により内製で文字起こしを構築している方々の参考になれば幸いです。 はじめに 背景と課題 システム要件 システム実装 アーキテクチャ 入力データ形式 ドメイン固有用語の管理 処理フロー Cloud Speech-to-Textによる文字起こし Gemini 1.5 Flashによる認識処理 Gemini 1.5 Proによ

      GeminiとSpeech-to-Textで実現する高精度な文字起こし - enechain Tech Blog
    • OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる

      OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は、ASDFを使ってPythonのバージョンを使い分けており、今回使用するのは、miniforge3-4.10.3-10です。Python 3.9.13が動作しています。 まず、仮想環境を作ります。miniforgeを使っていながらPython標準のvenvを使っていました。(あまり意識して

        OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
      • Speech-to-Text Webcam Overlay

        *認識結果が確定したタイミングで反映されます。テキストの編集・コピーも可能です。 **認識中にEnterキーを押すと,認識を止めて文を区切ることができます。日本語の場合は文末に句点が付与されます。 よくある質問・ソースコード: GitHub 音声認識は Web Speech API を利用しています。 カメラやマイクが機能しないとき → ページの再読み込みや,ブラウザの設定を確認してください: Chrome ヘルプ 「ログをダウンロード」でダウンロードされるファイルは,アクセスしているユーザーのブラウザで生成されています。

          Speech-to-Text Webcam Overlay
        • Introducing speech-to-text, text-to-speech, and more for 1,100+ languages

          Introducing speech-to-text, text-to-speech, and more for 1,100+ languages Equipping machines with the ability to recognize and produce speech can make information accessible to many more people, including those who rely entirely on voice to access information. However, producing good-quality machine learning models for these tasks requires large amounts of labeled data — in this case, many thousan

            Introducing speech-to-text, text-to-speech, and more for 1,100+ languages
          • GitHub - 1heisuzuki/speech-to-text-webcam-overlay: Web Speech API で音声認識した結果の字幕をWebカメラ映像に重ねて表示するWebページ

            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

              GitHub - 1heisuzuki/speech-to-text-webcam-overlay: Web Speech API で音声認識した結果の字幕をWebカメラ映像に重ねて表示するWebページ
            • 田中康夫 Speech To Text Online on Twitter: "@loveyassy 「#しょぼいウイルスなのに全世界が大騒ぎ」の東浩紀(#現在ツイ垢失踪中)・三浦瑠麗@lullymiura・小林よしのり(ツイ垢不明)3賢人様の世紀の大鼎談ダイジェスト版です!… https://t.co/QXrXeOHBH2"

              @loveyassy 「#しょぼいウイルスなのに全世界が大騒ぎ」の東浩紀(#現在ツイ垢失踪中)・三浦瑠麗@lullymiura・小林よしのり(ツイ垢不明)3賢人様の世紀の大鼎談ダイジェスト版です!… https://t.co/QXrXeOHBH2

                田中康夫 Speech To Text Online on Twitter: "@loveyassy 「#しょぼいウイルスなのに全世界が大騒ぎ」の東浩紀(#現在ツイ垢失踪中)・三浦瑠麗@lullymiura・小林よしのり(ツイ垢不明)3賢人様の世紀の大鼎談ダイジェスト版です!… https://t.co/QXrXeOHBH2"
              • GitHub - reriiasu/speech-to-text: Real-time transcription using faster-whisper

                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                  GitHub - reriiasu/speech-to-text: Real-time transcription using faster-whisper
                • 音声認識によるリアルタイム字幕&翻訳が可能な「Speech to Text Webcam Overlay」をZoomで使ってみた - DENET 技術ブログ

                    音声認識によるリアルタイム字幕&翻訳が可能な「Speech to Text Webcam Overlay」をZoomで使ってみた - DENET 技術ブログ
                  • GitHub - snakers4/silero-models: Silero Models: pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly simple

                    Silero Models: pre-trained enterprise-grade STT / TTS models and benchmarks. Enterprise-grade STT made refreshingly simple (seriously, see benchmarks). We provide quality comparable to Google's STT (and sometimes even better) and we are not Google. As a bonus: No Kaldi; No compilation; No 20-step instructions; Also we have published TTS models that satisfy the following criteria: One-line usage; A

                      GitHub - snakers4/silero-models: Silero Models: pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly simple
                    • GitHub - coqui-ai/STT: 🐸STT - The deep learning toolkit for Speech-to-Text. Training and deploying STT models has never been so easy.

                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                        GitHub - coqui-ai/STT: 🐸STT - The deep learning toolkit for Speech-to-Text. Training and deploying STT models has never been so easy.
                      • Google Speech to Text APIを使ってブラウザでリアルタイム文字起こしする - Qiita

                        TD;TL Google Speech to Text APIとWeb Speech APIを併用することで実現する 音声検出のみWeb Speech APIを使い、文字起こし自体はGoogle Speech to Text APIを使うことで、ブラウザ文字起こしにおいてリアルタイム感と精度の高さを両立する 発端 現在開発中のプロダクトの中で、Speech to Textの仕組みを導入するために様々な方法を調べていました。 オンライン会議中の会話を文字起こししたり、アジェンダや議事録を一括で管理できるサービス「Telelogger」というサービスなのですが、コアとなる機能が会議中の会話の文字起こしです。 サービスはWebアプリケーションとして提供するため、ブラウザでの文字起こしを想定しています。 対象ブラウザをGoogle Chromeに絞った上で、最初はWeb Speech APIを試し

                          Google Speech to Text APIを使ってブラウザでリアルタイム文字起こしする - Qiita
                        • GoogleのCloud Speech-to-Textでリアルタイムに会話の文字起こし - ASKUL Engineering BLOG

                          はじめに 初めまして、4月からアスクルに新卒入社しました、「みわすけ」です。 新卒エンジニアとして、まだまだ勉強中ではありますが、今回ヤフーさん主催の「Yahoo! JAPAN Internal Hack Day 17」というイベントに参加させていただきました。 HackDayとは テクノロジーを、もっと身近に、もっと楽しく。Hack Dayは、ものづくりの面白さを体験する祭典です。日本最大級のハッカソンや、注目のコンテンツを揃えた体験ブースなど、盛りだくさんのイベントを毎年開催しています。(https://hackday.jp より) その中で、我々アスクルチームは会議の議事録を取る行為をエンジニアリングで解決しようとなり、24時間で開発していきました。この記事ではその中で「発言を文字起こしする」部分に使用したGoogleのCloud Sppech-to-Textの使い方について解説しま

                            GoogleのCloud Speech-to-Textでリアルタイムに会話の文字起こし - ASKUL Engineering BLOG
                          • 議事録担当なんてなくそうよ。Google Cloud Speech -to-Textを使ってみた

                            はじめまして。 イノベーション本部の田中です。 ここ最近、お仕事では画像認識をやっておりますが、 今回は音声認識のお話です。 皆さん、議事録書くの面倒ではないですか? 楽をしたいなーと思い、 Googleの音声認識(Cloud Speech-to-Text)を試してみたのでご紹介します。 Cloud Speech-to-Textについて機械学習を活用して音声をテキストに変換してくれる、GoogleのAPIサービスです。 音声認識の精度が高く、多くの言語にも対応しているということで評判が良いAPIです。 詳しくは、公式サイトをご確認ください。 (https://cloud.google.com/speech-to-text/?hl=ja) 取り組み内容今回試した内容は大きく2つです。 PCのマイクから認識した音声をリアルタイムでテキストに変換変換したテキストは、Googleスプレッドシートに

                              議事録担当なんてなくそうよ。Google Cloud Speech -to-Textを使ってみた
                            • Speech to Text - AmiVoiceの音声認識API・SDK(アミボイス)

                              開発者向け Speech to text AmiVoiceの高精度音声認識を あなたのサービスに AmiVoice Cloud Platformでは、機械学習の専門知識がなくとも高性能な speech to text(音声認識)をお好みのプログラム言語でアプリケーションに組み込むことが可能。音声のテキスト変換や音声入力のほか音声感情分析機能も簡単に実装いただけます。

                                Speech to Text - AmiVoiceの音声認識API・SDK(アミボイス)
                              • 2020年4月22日 FNNプライムニュース『ノーベル賞・本庶佑氏 コロナ対策に緊急提言 政府の対策で勝てるか + 韓国の良い所は見習わないと 佐藤正久参議院議員 韓国のコロナ対応を絶賛』 - 田中康夫 Speech To Text Online

                                [佐藤正久]韓国は感染症に対する危機意識がかなり高いんです。MARSでの教訓もあるので、今回非常に感染症に対する感度、これが高い為に備蓄を含めて、あるいは態勢含めてやはり速いんです。そういう部分がやっぱり、今回我々としての、韓国の良い所は見習わないといけない。後で議論になるいろんな、PCRセンターを含めて韓国は一月からもうやってるんです。今、四月でしょ?で、もう三ヶ月の差があるんです。そのぐらい最初から危機感が高い。 * [竹内友佳]本庶さんは新型コロナウイルスとの戦いが今どういった状況にあるとご覧になっていますでしょうか。 [本庶佑]今仰ったこと、特に佐藤さんが仰ったことはその通りでね、韓国からは大変に見習うことが多いと思いますし、自衛隊、厚労省、こういったとこの連携とか、そういうことはやはりこういう場合にですね、政治家だけでなかなか判断できないから、やはり医療関係の専門家、基礎としてサ

                                  2020年4月22日 FNNプライムニュース『ノーベル賞・本庶佑氏 コロナ対策に緊急提言 政府の対策で勝てるか + 韓国の良い所は見習わないと 佐藤正久参議院議員 韓国のコロナ対応を絶賛』 - 田中康夫 Speech To Text Online
                                • Researcher Breaks reCAPTCHA With Google’s Speech-to-Text API

                                  Researcher uses an old unCAPTCHA trick against latest the audio version of reCAPTCHA, with a 97 percent success rate. An old attack method dating back to 2017 that uses voice-to-text to bypass CAPTCHA protections turns out to still work on Google’s latest reCAPTCHA v3. That’s according to researcher Nikolai Tschacher, who posted a video proof-of-concept (PoC) of the attack on Jan. 2. CAPTCHA, intr

                                    Researcher Breaks reCAPTCHA With Google’s Speech-to-Text API
                                  1

                                  新着記事