speech-to-textの人気記事 15件 - はてなブックマーク

1 - 15 件 / 15件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

speech-to-textの検索結果1 - 15 件 / 15件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

speech-to-textに関するエントリは15件あります。 AI、カメラ、 text などが関連タグです。人気エントリには『GeminiとSpeech-to-Textで実現する高精度な文字起こし - enechain Tech Blog』などがあります。

GeminiとSpeech-to-Textで実現する高精度な文字起こし - enechain Tech Blog
- 126 users
- techblog.enechain.com
- テクノロジー
- 2024/12/14
この記事はenechain Advent Calendar 2024の14日目の記事です。はじめにこんにちは。enechainで統計・機械学習モデルの構築やLLM（大規模言語モデル）の活用推進を担当している@udon_tempuraです。私達のチームでは、以前紹介した会議動画要約のノウハウを活用し、社内用の動画・音声文字起こしツールを構築・運用しています。本記事では、その精度向上の仕組みについて紹介します。実装も比較的少なく実現できたため、セキュリティなどの関係により内製で文字起こしを構築している方々の参考になれば幸いです。はじめに背景と課題システム要件システム実装アーキテクチャ入力データ形式ドメイン固有用語の管理処理フロー Cloud Speech-to-Textによる文字起こし Gemini 1.5 Flashによる認識処理 Gemini 1.5 Proによ
- 文字起こし
- LLM
- あとで読む
- Gemini
- AI
- 自然言語処理
- google
OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
- 119 users
- inoccu.com
- テクノロジー
- 2022/09/26
OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は、ASDFを使ってPythonのバージョンを使い分けており、今回使用するのは、miniforge3-4.10.3-10です。Python 3.9.13が動作しています。まず、仮想環境を作ります。miniforgeを使っていながらPython標準のvenvを使っていました。（あまり意識して
- python
- whisper
- あとで読む
- mac
- AI
- インストール
- github
Speech-to-Text Webcam Overlay
- 73 users
- 1heisuzuki.github.io
- テクノロジー
- 2020/05/21
*認識結果が確定したタイミングで反映されます。テキストの編集・コピーも可能です。 **認識中にEnterキーを押すと，認識を止めて文を区切ることができます。日本語の場合は文末に句点が付与されます。よくある質問・ソースコード: GitHub 音声認識は Web Speech API を利用しています。カメラやマイクが機能しないとき → ページの再読み込みや，ブラウザの設定を確認してください: Chrome ヘルプ「ログをダウンロード」でダウンロードされるファイルは，アクセスしているユーザーのブラウザで生成されています。
- chrome
- 音声認識
- browser
- webサービス
- カメラ
- text
- AI
Introducing speech-to-text, text-to-speech, and more for 1,100+ languages
- 20 users
- ai.meta.com
- テクノロジー
- 2023/05/23
Introducing speech-to-text, text-to-speech, and more for 1,100+ languages Equipping machines with the ability to recognize and produce speech can make information accessible to many more people, including those who rely entirely on voice to access information. However, producing good-quality machine learning models for these tasks requires large amounts of labeled data — in this case, many thousan
- Meta
- 機械学習
- 人工知能
- AI

GitHub - 1heisuzuki/speech-to-text-webcam-overlay: Web Speech API で音声認識した結果の字幕をWebカメラ映像に重ねて表示するWebページ
- 15 users
- github.com/1heisuzuki
- テクノロジー
- 2020/05/21
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- chrome
- text
- browser
- API
- カメラ
- github
- あとで読む
- web
GitHub - reriiasu/speech-to-text: Real-time transcription using faster-whisper
- 5 users
- github.com/reriiasu
- テクノロジー
- 2023/08/03
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
音声認識によるリアルタイム字幕&翻訳が可能な「Speech to Text Webcam Overlay」をZoomで使ってみた - DENET 技術ブログ
- 5 users
- blog.denet.co.jp
- テクノロジー
- 2021/03/07
GitHub - snakers4/silero-models: Silero Models: pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly simple
- 5 users
- github.com/snakers4
- テクノロジー
- 2022/06/20
Silero Models: pre-trained enterprise-grade STT / TTS models and benchmarks. Enterprise-grade STT made refreshingly simple (seriously, see benchmarks). We provide quality comparable to Google's STT (and sometimes even better) and we are not Google. As a bonus: No Kaldi; No compilation; No 20-step instructions; Also we have published TTS models that satisfy the following criteria: One-line usage; A
GitHub - coqui-ai/STT: 🐸STT - The deep learning toolkit for Speech-to-Text. Training and deploying STT models has never been so easy.
- 5 users
- github.com/coqui-ai
- テクノロジー
- 2021/04/15
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- ディープラーニング
- あとで読む
Google Speech to Text APIを使ってブラウザでリアルタイム文字起こしする - Qiita
- 4 users
- qiita.com/kawazu255
- テクノロジー
- 2020/07/19
TD;TL Google Speech to Text APIとWeb Speech APIを併用することで実現する音声検出のみWeb Speech APIを使い、文字起こし自体はGoogle Speech to Text APIを使うことで、ブラウザ文字起こしにおいてリアルタイム感と精度の高さを両立する発端現在開発中のプロダクトの中で、Speech to Textの仕組みを導入するために様々な方法を調べていました。オンライン会議中の会話を文字起こししたり、アジェンダや議事録を一括で管理できるサービス「Telelogger」というサービスなのですが、コアとなる機能が会議中の会話の文字起こしです。サービスはWebアプリケーションとして提供するため、ブラウザでの文字起こしを想定しています。対象ブラウザをGoogle Chromeに絞った上で、最初はWeb Speech APIを試し
- Article
GoogleのCloud Speech-to-Textでリアルタイムに会話の文字起こし - ASKUL Engineering BLOG
- 3 users
- tech.askul.co.jp
- テクノロジー
- 2020/07/27
はじめに初めまして、4月からアスクルに新卒入社しました、「みわすけ」です。新卒エンジニアとして、まだまだ勉強中ではありますが、今回ヤフーさん主催の「Yahoo! JAPAN Internal Hack Day 17」というイベントに参加させていただきました。 HackDayとはテクノロジーを、もっと身近に、もっと楽しく。Hack Dayは、ものづくりの面白さを体験する祭典です。日本最大級のハッカソンや、注目のコンテンツを揃えた体験ブースなど、盛りだくさんのイベントを毎年開催しています。(https://hackday.jp より) その中で、我々アスクルチームは会議の議事録を取る行為をエンジニアリングで解決しようとなり、24時間で開発していきました。この記事ではその中で「発言を文字起こしする」部分に使用したGoogleのCloud Sppech-to-Textの使い方について解説しま
- hackathon
- yahoo
- python
議事録担当なんてなくそうよ。Google Cloud Speech -to-Textを使ってみた
- 3 users
- techceed-inc.com
- テクノロジー
- 2020/05/18
はじめまして。イノベーション本部の田中です。ここ最近、お仕事では画像認識をやっておりますが、今回は音声認識のお話です。皆さん、議事録書くの面倒ではないですか？楽をしたいなーと思い、 Googleの音声認識(Cloud Speech-to-Text)を試してみたのでご紹介します。 Cloud Speech-to-Textについて機械学習を活用して音声をテキストに変換してくれる、GoogleのAPIサービスです。音声認識の精度が高く、多くの言語にも対応しているということで評判が良いAPIです。詳しくは、公式サイトをご確認ください。 (https://cloud.google.com/speech-to-text/?hl=ja) 取り組み内容今回試した内容は大きく2つです。 PCのマイクから認識した音声をリアルタイムでテキストに変換変換したテキストは、Googleスプレッドシートに
Speech to Text - AmiVoiceの音声認識API・SDK（アミボイス）
- 3 users
- acp.amivoice.com
- テクノロジー
- 2023/07/12
開発者向け Speech to text AmiVoiceの高精度音声認識をあなたのサービスに AmiVoice Cloud Platformでは、機械学習の専門知識がなくとも高性能な speech to text（音声認識）をお好みのプログラム言語でアプリケーションに組み込むことが可能。音声のテキスト変換や音声入力のほか音声感情分析機能も簡単に実装いただけます。
- ai
- webservice
- software
2020年4月22日 FNNプライムニュース『ノーベル賞・本庶佑氏コロナ対策に緊急提言政府の対策で勝てるか + 韓国の良い所は見習わないと佐藤正久参議院議員韓国のコロナ対応を絶賛』 - 田中康夫 Speech To Text Online
- 3 users
- nippon2014be.hatenadiary.jp
- 世の中
- 2020/04/29
[佐藤正久]韓国は感染症に対する危機意識がかなり高いんです。MARSでの教訓もあるので、今回非常に感染症に対する感度、これが高い為に備蓄を含めて、あるいは態勢含めてやはり速いんです。そういう部分がやっぱり、今回我々としての、韓国の良い所は見習わないといけない。後で議論になるいろんな、PCRセンターを含めて韓国は一月からもうやってるんです。今、四月でしょ？で、もう三ヶ月の差があるんです。そのぐらい最初から危機感が高い。 * [竹内友佳]本庶さんは新型コロナウイルスとの戦いが今どういった状況にあるとご覧になっていますでしょうか。 [本庶佑]今仰ったこと、特に佐藤さんが仰ったことはその通りでね、韓国からは大変に見習うことが多いと思いますし、自衛隊、厚労省、こういったとこの連携とか、そういうことはやはりこういう場合にですね、政治家だけでなかなか判断できないから、やはり医療関係の専門家、基礎としてサ
Researcher Breaks reCAPTCHA With Google’s Speech-to-Text API
- 3 users
- threatpost.com
- テクノロジー
- 2021/01/05
Researcher uses an old unCAPTCHA trick against latest the audio version of reCAPTCHA, with a 97 percent success rate. An old attack method dating back to 2017 that uses voice-to-text to bypass CAPTCHA protections turns out to still work on Google’s latest reCAPTCHA v3. That’s according to researcher Nikolai Tschacher, who posted a video proof-of-concept (PoC) of the attack on Jan. 2. CAPTCHA, intr

新着記事

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx