[4ページ] 音声認識の人気記事 190件

121 - 160 件 / 190件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

音声認識の検索結果121 - 160 件 / 190件

TechCrunch
- 14 users
- jp.techcrunch.com
- テクノロジー
- 2021/03/09
When Joanna Strober was around 47, she stopped sleeping. While losing sleep is a common symptom of perimenopause, she first had to go to multiple providers, including driving 45 minutes out of San Fra The Federal Trade Commission hit Razer with a $1.1 million fine Tuesday. The order claims that the gaming accessory maker misled consumers by claiming that its flashy Zephyr mask was certified as N95
Engadget | Technology News & Reviews
- 14 users
- www.engadget.com
- テクノロジー
- 2019/10/16
Parrots in captivity seem to enjoy video-chatting with their friends on Messenger
- android
- google
- ガジェット
- gadget
- 仕事
- あとで読む
【徹底解説】VB-Audio Virtual Cableのインストール方法と使い方
- 12 users
- hidesanpo.com
- テクノロジー
- 2019/11/10
この記事には広告を含む場合があります。記事内で紹介する商品を購入することで、当サイトに売り上げの一部が還元されることがあります。
国内シェア1位はiPhoneで変わらず　ドコモ「ケータイ社会白書2019年版」
- 12 users
- www.itmedia.co.jp
- テクノロジー
- 2019/08/29
NTTドコモモバイル社会研究所が、スマートフォンとケータイ（ガラケー）の利用状況をモバイル社会研究所が独自に調査した結果をまとめたデータブック「ケータイ社会白書2019年版」を公開している。スマートフォン比率は、2010年は3.6％だったのが、2019年は83.5％にまで増加し、ケータイ利用率は16.1％と2018年の24.8％を下回る。
- スマートフォン
- あとで読む
- mobile
- Android
- life
- iPhone
- 社会
WhisperとGoogle Colaboratoryで音声の文字起こしをやってみた
- 12 users
- zenn.dev/tam_tam
- テクノロジー
- 2022/09/26
AI 業界の進化が著しい昨今、AI の研究開発企業として名高い OpenAI から Whisper というとんでもない自動音声認識モデルの発表がありました。（2022/09/22）Whisper は 68 万時間かけてトレーニングされた自動音声認識モデルでなんとオープンソース化されています。公開されているサンプルでは早口や K-POP、フランス語、アクセントのある会話などを問題なく処理できることが示されています。また日本語に関しても高い精度を保持していることがグラフから見て取れます。 Whisper の GitHub リポジトリより引用この記事で行うことこの記事では Whisper を Google が提供する Colaboratory で利用し、文字起こしツールを作成していきたいと思います。今回やりたいことは以下の 3 つになります。音声データから文字起こしができる文字起こし
Windows 10でも日本語の音声入力ができるようになるみたいです！【高橋忍のにゃんともWindows】
- 11 users
- forest.watch.impress.co.jp
- テクノロジー
- 2020/07/03
- 日本語
- Microsoft
Introducing a foundational multimodal model for speech translation
- 11 users
- ai.meta.com
- テクノロジー
- 2023/08/23
Today, we’re introducing SeamlessM4T, a foundational multilingual and multitask model that seamlessly translates and transcribes across speech and text. SeamlessM4T supports: Automatic speech recognition for nearly 100 languagesSpeech-to-text translation for nearly 100 input and output languagesSpeech-to-speech translation, supporting nearly 100 input languages and 35 (+ English) output languagesT
ポケトークにアプリ版、翻訳で世界市場へ
- 10 users
- www.watch.impress.co.jp
- テクノロジー
- 2022/04/13
- サービス
- Webサービス
NPCとのリアルタイム音声会話を可能にする「Smart NPCs」発表！AIを利用したUnreal Engine向けプラグイン | Game*Spark - 国内・海外ゲーム情報サイト
- 10 users
- www.gamespark.jp
- テクノロジー
- 2023/05/26
- AI
- ゲーム
- game
iOS/iPadOS 17.4のポッドキャストアプリでは英語など一部言語で「文字起こし」機能がサポート。
- 9 users
- applech2.com
- テクノロジー
- 2024/03/06
iOS/iPadOS 17.4のポッドキャストアプリでは英語など一部言語で「文字起こし」機能がサポートされています。詳細は以下から。 Appleは現地時間2024年03月05日、iPhone XS以降のiPhoneやiPad (第6世代)以降のiPadなどに対し「iOS 17.4/iPadOS 17.4 Build 21E219」を正式にリリースしましたが、このiOS/iPadOS 17.4ではAppleのポッドキャストアプリで文字起こし機能が追加サポートされています。文字起こし機能により、英語、スペイン語、フランス語、およびドイツ語でオーディオと同時にテキストがハイライト表示されエピソードを追うことが可能リリースノートより Appleによると、ポッドキャストアプリの文字起こし機能は、本日より最新のエピソードに文字起こししたテキストが追加され、過去のエピソードも今後順次文字起こし処理さ
- iOS
- Apple
TechCrunch | Startup and Technology News
- 9 users
- jp.techcrunch.com
- テクノロジー
- 2020/01/07
After Apple loosened its App Store guidelines to permit game emulators, the retro game emulator Delta — an app 10 years in the making — hit the top of the…
- 人工知能
- あとで読む
Pythonで学ぶ音声認識機械学習実践シリーズ - インプレスブックス
- 9 users
- book.impress.co.jp
- テクノロジー
- 2021/04/12
3,850円（本体 3,500円＋税10%）品種名書籍発売日2021/5/20 ページ数352 サイズB5変形判著者高島遼一　著 ISBN 9784295011385 「音声認識」とは音声信号から発話内容を認識することで、AIスピーカなどに利用されている技術です。本書は、音声認識技術の発展経緯を学びながら、深層学習を用いた最新の音声認識システムを実装できるまでを目的とし、手法の目的やアルゴリズムの概要を解説、続いて数式レベルでの詳説、最後にソースコード付きで実装という流れで解説しています。特に手法の概要については「その手法は何を目的として生み出されたのか」という経緯と「なぜその手法は前述の目的を達成できるのか」について直感的に理解できるよう工夫しています。目次を見る
USBマイク、カワイイ「SNOWBALL」とカッチョイイ「Yeti X」で音質どう変わる?【日沼諭史の体当たりばったり!】
- 8 users
- av.watch.impress.co.jp
- テクノロジー
- 2021/04/28
- あとで読む
日本語の音声認識はなぜ難しい？精度向上のカギは、「辞書」と「文脈」にあった
- 8 users
- staff.persol-xtech.co.jp
- テクノロジー
- 2021/10/28
スマホの音声入力では、マイクに向かってしゃべった声が、リアルタイムに文章として入力されます。その裏側を支えているのが「音声認識」。声を分析し、文字のデータに変換する技術です。「Alexa、電気消して」も「Hey Siri、明日の天気は？」も、音声認識なしには実現しません。最近では、会議の音声から議事録を作ったり、音声で作業記録を付けたりなど、音声認識の用途は拡がりを見せているそう。一方で、「インタビューの文字起こしがうまくいかない」など、思うように認識されないという声も耳にします。そもそも、音声認識はどうやって人間の声を認識しているのか？　日本語の音声認識はどこが難しいのか？　音声認識ソリューションを手がける株式会社アドバンスト・メディアの安藤さんに、音声認識の気になる裏側を聞きました。株式会社アドバンスト・メディア 1997年に創業し、音声認識技術「AmiVoice」をコアとした各
日本語音声のマイク入力をオフラインでリアルタイム音声認識：「VOSK」を JavaScript（Node.js）で扱う - Qiita
- 8 users
- qiita.com/youtoy
- テクノロジー
- 2022/06/28
この記事の内容は、オフラインでリアルタイム音声認識ができ、日本語にも対応している以下の「VOSK」を試してみた話です。 ●VOSK Offline Speech Recognition API https://alphacephei.com/vosk/ そして今回の記事で、VOSK を扱う開発言語・環境は「JavaScript（Node.js）」です（自分がよく使っているから、という選定理由です）。なお、対応している他の開発言語などは、公式ページの「Installation」を見ると確認でき、例えばスマホ向け（Android・iOS）や Python・Java・C# などもあるようです。 VOSK を「JavaScript（Node.js）」で扱うそれでは、タイトルや冒頭にも書いた JavaScript（Node.js）で VOSK を扱う話へと進んでいきます。公式ドキュメントの情報
- javascript
- あとで読む
Windows上の任意アプリでGoogle音声入力を使う方法（インライン入力） | TeraDas（テラダス）
- 8 users
- www.teradas.net
- テクノロジー
- 2019/08/23
（※これは管理人イチオシの記事です。）今回は、Windows の任意アプリ上で Google 音声入力をインラインで使う方法を紹介します。 Windows 上での音声入力と言えば、Microsoft 純正の「Dictate」「ディクテーション」といった機能がありますが、Google 音声入力と比べると認識率がイマイチ。一方の Google 音声入力は認識率は抜群なのに、Windows 上ではブラウザで動作する Google ドキュメントなどでしか（普通の方法では）利用できないのが欠点でした。しかし、今回紹介する「Android スマホアプリと Windows をうまく組み合わせる」方法を使えば、Windows 上の任意アプリのインラインで Google 音声入力を使えるようになります。 Bluetooth ヘッドセットとの相性も非常に良く、Windows 上で実用的な音声入力を実現で
「Voidol 結月ゆかり」発売開始
- 8 users
- vocalomakets.com
- テクノロジー
- 2020/09/29
2020年9月29日より、AIリアルタイム声質変換システム「Voidol」用のボイスモデル「結月ゆかり(CV:石黒千尋) Voidol用ボイスモデル」のダウンロード販売が開始されました。楽天ブックス：結月ゆかり(CV:石黒千尋) Voidol用ボイスモデル　／　販売元：クリムゾンテクノロジー株式会社Amazon：結月ゆかり(CV:石黒千尋) Voidol用ボイスモデル|ダウンロード版「Voidol - Powered by リアチェンvoice -」ナレーターや演者様の声をかわいい女性の声やイケメンボイスなど様々な声にAIリアルタイム声質変換。 Amazon.co.jp PCソフトダウンロードストア売れ筋ランキング１位獲得。 Windows10とmacOS Xに対応。販売中の多彩なボイスモデルの追加が可能です。付属のボイスモデルも女性の「音宮いろは」少年風の「くりむ蔵」と男性の「
- AI
- あとで読む
音声認識モデル”Whisper”をストリーミング処理対応させる方法 | DevelopersIO
- 7 users
- dev.classmethod.jp
- テクノロジー
- 2022/10/09
こんちには。データアナリティクス事業本部機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、前回はtranscribeの内容を紐解きました。 Whisperが提供しているtranscribeのAPIは、バッチ処理のみに対応した構成となっており、リアルタイムに認識を試すのが難しくなっています。そこで今回は、前回紐解いた結果を使ってストリーミング処理に対応させてみようと思います。設計の概要以下に設計の概要を図で示します。前回ご紹介した通り、transcribeの中身は30秒単位で処理をしています（この単位を本記事ではフレームと呼びます）。そして次の処理フレームは、前のフレームのタイムスタンプトークンの末尾から30秒となります。そのためフレームをずらす長さ（これを本記事ではシフト長と呼びます）は動的になります。そのため、設計方針は以下のようにしました。
iOS 15では火災警報や猫/犬、赤ん坊の泣き声などを認識してiPhoneに通知する「サウンド認識」機能に、ガラスの割れる音とやかん音が追加。
- 7 users
- applech2.com
- テクノロジー
- 2021/09/25
iOS 15では火災警報や猫/犬、赤ん坊の泣き声などを認識してiPhoneに通知を出す「サウンド認識」機能に、ガラスの割れる音とやかんの音が追加されています。詳細は以下から。 Appleは2020年09月にリリースした「iOS 14/iPadOS 14」でアクセシビリティ機能の1つとして、火災報知器やサイレンなどの音を聞き逃してしまう聴覚に障害があるユーザー向けに、オンデバイスの音声認識処理を利用し、iPhoneやiPadの周辺で警報やサイレンが鳴ると通知を表示する「サウンド認識」機能を導入しましたが、現地時間2021年09月20日に新たにリリースされた「iOS 15/iPadOS 15」では、このサウンド認識機能に「ガラスの割れる音」と「やかん(が沸く音)」が新たに追加されています。サウンド認識を使う iOS 14/iPadOS 14以降のiPhoneやiPadデバイスでサウンド認識
- iOS
- Apple
- iPhone
- あとで読む
ミニマリストはテクノロジーのおかげな話
- 7 users
- korekara-nanishiyou.com
- テクノロジー
- 2020/07/22
なんでもスマホでできちゃう弊害ひとつでなんでもできてしまうことの弊害もあります。スマホがないと何もできないくらいスマホに依存する生活になりました。中毒性もあります。なんでもスマホでできちゃうので、ちょっとでも時間ができると何となくスマホに手が伸びてしまいます。スマホのアプリは注目を浴びてもらうために色んな工夫がされています。自分もその一人ですが、YouTubeやSNSで無益な時間を過ごしてしまった！ということも増えました。サブスクリプションで持たずにすむモノ本・映画・音楽などのコンテンツサブスクリプションサービスの登場で、本や、映画、音楽は持たずにすむようになりました。よくお世話になっているのは、Amazonです。 Kindle Amazon Music Prime Video とこの辺はよく使ってます。 Amazon以外にも、Hulu、Spotifyとか…、今やたくさ
- テクノロジー
- あとで読む
情シスがオフィスの顔を一瞬で変えた！？「受付アプリ開発」秘話
- 7 users
- blog.colorkrew.com
- テクノロジー
- 2020/08/24
こんにちは！ブランディングプロジェクトのだーはらです。現在ほぼ在宅勤務の日々なのですが、久々オフィスへ出社したら、前々からお話聞きたいなーと思っていた人がたまたまいらっしゃいまして。速攻インタビューのセッティング！ということで、今回はColorkrew（カラクル）のイケてる受付アプリを開発した情シス担当の小嶋さんに突撃インタビューしてみました！社歴20年！情シス、小嶋さんのあれやこれや原田：急なインタビューですが、今日はよろしくお願いします！小嶋：いえいえ、こちらこそ！原田：前々から聞きたかった「受付アプリの開発」についての話の前に、まずは、小嶋さんのパーソナルヒストリーを少し伺えられたらなぁと思っているのですが。小嶋：パーソナルヒストリーですか。どこから話せば良いですかね。一応私は、カラクルの中では、最古参の方になるかな？私より前にいたのは西村さんくらいかな？と。原田：
Apple、新しい絵文字やポッドキャストアプリでの文字起こし機能、iPhone 15シリーズのバッテリー表示を最適化しゼロデイ脆弱性を修正した「iOS/iPadOS 17.4」を正式にリリース。
- 7 users
- applech2.com
- テクノロジー
- 2024/03/06
Appleが新しい絵文字やポッドキャストアプリでの文字起こし機能、iPhone 15シリーズのバッテリー充放電回数や製造日表示などを追加した「iOS/iPadOS 17.4」を正式にリリースしています。詳細は以下から。 Appleは現地時間2024年03月05日、iPhone XS以降のiPhoneやiPad (第6世代)以降のiPadなどに対し新しい絵文字やポッドキャストアプリの文字起こし機能などを実装した「iOS 17.4 Build 21E219」および「iPadOS 17.4 Build 21E219」アップデートを正式にリリースしたと発表しています。このアップデートでは、新しい絵文字とApple Podcastでの文字起こしが導入され、iPhoneでのその他の機能、バグ修正、およびセキュリティアップデートも含まれます。リリースノートより抜粋 iOS/iPadOS 17.4では
OK、グーグル。アルファベットを買収して。直ちに実行致します。ノブレス・オブリージュ今後も救世主たらんことを
- 7 users
- takanobu.me
- テクノロジー
- 2021/05/21
Bluetoothのスピーカーが欲しくなった。私は、ブログを書いている時は大概ラジオを聞きながらやっているのだけども、ラジコのタイムフリー（過去の放送を振り返って聞くことができる）で聞き逃したものを聞きながらというのがいつものパターンだ。その際はまずTraveling Without Movingを聞き、まだ書くものが残っていたらジェットストリームへ移行する。後はもう写真を貼っ付けたり誤字脱字の直しだけとなれば、レコーダーに録っておいたWBS（ワールドビジネスサテライト）なんかをながら見しながらというのがいつもの事となる。&nbsp… 使わなければ使わなくても良いのだけども、それはやっぱりもったいない。そこで考えた。そうだ、スマートスピーカーを買えば良いじゃあないか、と。というのも、私の家はあまりラジオの入りがよろしくない。ちゃんと入るのは、NHK第一、第二とニッポン放送くらいで、
Googleアシスタントがよりシームレスで正確な会話ができるよう進化、開発ツールもより簡易なものに
- 7 users
- gigazine.net
- テクノロジー
- 2020/06/18
現地時間2020年6月17日に行われた音声テクノロジーに関するオンラインカンファレンス「Voice Global」の中で、GoogleがGoogleアシスタントのコアプラットフォームと開発ツールを改善したと発表しました。 Google Developers Blog: Voice Global 2020: New improvements to core platform and development tools for Google Assistant https://developers.googleblog.com/2020/06/voice-global-2020-new-improvements-to-core-platform.html Googleアシスタントは30を超える言語に対応しており、毎月5億人を超える人々が使用するAIアシスタントです。GoogleはGoogleア
テープ起こし不要？ Pixel 6の「日本語文字起こし」が凄い（山口健太） - エキスパート - Yahoo!ニュース
- 6 users
- news.yahoo.co.jp
- テクノロジー
- 2021/10/28
10月28日発売のグーグル最新スマホ「Pixel 6」シリーズ。普通のAndroidスマホに比べてグーグルの最新AIをいち早く体験できるのが特徴ですが、その中でも「文字起こし」の機能が注目されています。筆者のように取材が多い仕事にICレコーダーは必須アイテムですが、仕事や学業に活用している人も多いのではないでしょうか。しかし録音を聞きながら必要な情報を取り出す作業は面倒なものです。この面倒な文字起こし作業をスマホ標準の機能として実現してしまったのが「レコーダー」アプリです。これまでは英語が先行してきましたが、Pixel 6では新たに日本語に対応しています。録音中の画面。音声がどんどん文字に変換されていく（筆者作成）実際にPixel 6のレコーダーアプリで録音し、文字起こしをさせてみた結果がこちら。さすがに認識ミスはあり、意味が分かりにくい部分はあるものの、スマホ標準の機能で何の労力
- Pixel 6
- Google
- AI
- Android
Apple、「Hey」を省き「Siri」だけで利用可能になる変更をWWDCで発表の可能性：Gurman氏 - こぼねみ
- 6 users
- www.kobonemi.com
- テクノロジー
- 2023/06/03
Appleは今年のWWDCで「Hey Siri」の「Hey」を省くという大きな変更を発表する可能性をBloombergのMark Gurman氏がツイートしています。 Siri単に「Hey」をなくすだけなので、わずかな変化のようにもみえますが、決してそうではなく、この変更は技術的な挑戦であり、相当量のAIトレーニングと根本的なエンジニアリング作業を必要となるとGurman氏は以前報告していました（関連記事）。というのも「Hey Siri」にはSiriが複数の異なるアクセントや方言で「Siri」という単一のフレーズを理解できるようにすることが含まれており、「Hey Siri」という2つの単語があることで、システムが正しく信号を取得する可能性を高めることができるからです。 AppleがWWDCで発表する見込みのMRヘッドセットは音声コントロールを搭載すると噂されており、Siriの改良は新デバ
- Apple
whisper、whisper.cpp、faster-whisperの比較
- 6 users
- zenn.dev/piment
- テクノロジー
- 2023/08/09
現状のwhisper、whisper.cpp、faster-whiperを比較してみたいと思います。 openai/whisperに、2022年12月にlarge-v2モデルが追加されたり、色々バージョンアップしていたりと公開からいろいろと進化しているようです。 CPU向けにC/C++で書かれたバージョンです。Core ML supportだそうですので、Mac向け感が強いです。 CTranslate2でWhisperモデルの書き直して、オリジナルと同等の精度で4倍速く、メモリ使用量も少ないそうです。以降、すべてGoogle Colabで実行しています。サンプルは、アナウンスの音声（WAV）の場合(48秒)を試しました。結果 faster-whisperのGPUは噂通り爆速でした。本家whisperはCPUが速いです。GPUでも初期に比べて85.62s → 23.9sに高速化してま
- OpenAI
- AI
- Tech
- 技術
Whisperで文字起こしする方法（ローカル環境にDockerを添えて）
- 6 users
- zenn.dev/karaage0703
- テクノロジー
- 2023/05/27
音声のテキスト変換 Web上にいくらでも情報があるWhisperでの文字起こしです。API使うとお金がかかるので、ローカル環境でDocker使って（Docker使えれば）手軽に実行できるのが特徴です。 CPUでもGPUでも動きます。Apple SiliconMacでもLinuxでも多分Windows(WSL2)でも動きます。 Dockerファイルや使うソフトはGitHubのリポジトリに公開しています。この記事は上記リポジトリの自分のための使い方のメモです。使い方ファイル準備文字起こしする音声ファイルを用意します。ここではinput.mp3とします。 Docker準備 Dockerがない人は、Dockerをインストールしましょう。LinuxかWindows(WSL2)なら、とりあえず以下コマンドを実行すればOKです。Macの人はDockerデスクトップを使いましょう。 $ curl
- Whisper
- docker
- AI
- 環境
- linux
「E2E音声認識」と「話者分離」のためのラベルなしデータ学習　「CLOVA Note」で認識性能向上するための技術
- 6 users
- logmi.jp
- テクノロジー
- 2021/11/22
2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこでEnd-to-End音声認識技術の実用化とAI音声記録サービス「CLOVA Note」について紹介されました。まずはNAVERのリューヒョクス氏から、サービスの紹介とそれに使われている技術について。 CLOVA Speechチームリューヒョクス氏：End-to-End音声認識と「CLOVA Note」というサービスについて、LINEの木田とNAVERのリューヒョクスが発表します。この音声認識は、NAVER CLOVA、LINEのSpeechチーム共同での研究開発の成果です。よろしくお願いします。本日は2部構成で発表いたします。最初にNAVER CLOVAのリューヒョクスがEnd-to-End音声認識とは
これで音声テキスト化が楽になる！Pythonで音声認識を作る方法
- 6 users
- aizine.ai
- テクノロジー
- 2020/06/15
最近ではPythonでプログラミングをしたり、AI（人工知能）を使ったりする人が増えていますよね。 Pythonでプログラミングして作れる物の一つに、音声認識があります。以前は音声認識の精度があまり良くありませんでしたが、近年、音声認識の精度は驚くほど向上し、色々な言語の違いだけではなく、方言まで認識することができるようになったとのこと。さらに、さまざまなAPIの登場などにより、音声認識のプログラムを作成した経験がない人でも簡単に、Pythonで音声認識ができるようになりました。とはいえ、何も知らない状態でいきなり音声認識を作るのはやはり難しいでしょう。そこで今回は、Pythonで音声認識を作る方法についてお伝えします。1つ1つ丁寧に解説していくので、Pythonの音声認識の作り方について、一緒にマスターしましょう！
GitHub - sdkcarlos/artyom.js: A voice control - voice commands - speech recognition and speech synthesis javascript library. Create your own siri,google now or cortana with Google Chrome within your website.
- 5 users
- github.com/sdkcarlos
- テクノロジー
- 2020/04/11
Due to abuse of users with the Speech Synthesis API (ADS, Fake system warnings), Google decided to remove the usage of the API in the browser when it's not triggered by an user gesture (click, touch etc.). This means that calling for example artyom.say("Hello") if it's not wrapped inside an user event won't work. So on every page load, the user will need to click at least once time per page to all
A new AI-powered speech translation system for Hokkien pioneers a new approach for a primarily oral language
- 5 users
- ai.meta.com
- テクノロジー
- 2022/10/20
Meta’s new AI-powered speech translation system for Hokkien pioneers a new approach for an unwritten language Until now, AI translation has mainly focused on written languages. Yet nearly half of the world’s 7,000+ living languages are primarily oral and do not have a standard or widely used writing system. This makes it impossible to build machine translation tools using standard techniques, whic
- 台湾
- 人工知能
- facebook
- 技術
市場は「ヒアラブル」の時代へ？アマゾン参入でウェアラブルデバイスの音人気加速 | Beyond（ビヨンド）
- 5 users
- boxil.jp
- テクノロジー
- 2019/11/15
高機能なワイヤレスイヤホンや、音声コマンドでも動作するスマートイヤホンなどを総称する「ヒアラブルデバイス」というジャンルが注目されている。出荷台数は順調に伸びスマートウォッチと肩を並べるほどだ。スマートスピーカー市場でトップを走るアマゾンも、アレクサを搭載した「Echo Buds」を発表。ウェアラブル市場で“音”の人気が加速しそうだ。イヤホンなどのヒアラブルデバイスに注目ソニーの携帯カセットテープ・プレーヤー「ウォークマン」が40年前に発売された当初、ヘッドホン姿で街を歩くと奇異な目で見られた。それが今では、当たり前の風景だ。そのあいだに、再生される音楽メディアはテープからCD、MD、MP3ファイルへと変化し、今やストリーミング配信になった。ヘッドホンやイヤホンはワイヤレス型が増え、使われる無線技術もアナログ方式のFM電波から、デジタル方式のBluetoothに進化した。しかも、ただ
- Amazon
- あとで読む
[M1] 音声認識ツール Voskを動かす [Node] | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2022/07/07
Introduction 各所で話題の日本語音声認識ツール,Voskがすごいです。実際やってみたところ、簡単なプログラムで日本語のリアルタイム音声認識ができました。 (M1非対応かと思ってたけど、なんか普通に動いた) VoskのインストールからNodeで動かすところまでやっていきます。 Environment OS : MacOS 12.4 Node : v18.2.0 yarn : 1.22.15 MacBook Pro (13-inch, M1, 2020)で動作確認。 Try では実際にやってみます。 Githubにはいろいろなサンプルがありますが、今回はこのシンプルなプログラムを使ってみます。このサンプルはマイクから入力された音声を日本語でコンソールに表示するだけのシンプルなものです。まずは適当なディレクトリを作成し、voskをインストール。 % mkdir vosk-e
- 音声認識
`large-v3` release · openai/whisper · Discussion #1762
- 5 users
- github.com/openai
- テクノロジー
- 2023/11/08
We're pleased to announce the latest iteration of Whisper, called large-v3. Whisper-v3 has the same architecture as the previous large models except the following minor differences: The input uses 128 Mel frequency bins instead of 80 A new language token for Cantonese The large-v3 model is trained on 1 million hours of weakly labeled audio and 4 million hours of pseudolabeled audio collected using
AI音声認識を活用した文字起こしでZoomミーティング・ウェビナーの字幕機能を搭載 | DXを推進するAIポータルメディア「AIsmiley」
- 5 users
- aismiley.co.jp
- テクノロジー
- 2021/02/17
株式会社アドバンスト・メディアは、AI音声認識を活用した文字起こし支援アプリケーションに、Zoomミーティング・ウェビナーの字幕機能を搭載したことを発表しました。このAIニュースのポイント AI音声認識を活用した文字起こしでZoomミーティング・ウェビナーの字幕機能を搭載難聴者・聴覚障がい者との会議にも活用が可能ソフトをインストールしていない人の画面にも字幕表示が可能株式会社アドバンスト・メディアは、AI音声認識を活用した文字起こし支援アプリケーション「AmiVoice ScribeAssist」に、Zoomミーティング・ウェビナーの字幕機能を搭載したことを発表しました。また、2月19日（金)、ヤマハウェビナーにてZoom連携活用について講演が行われます。 Zoomミーティング・ウェビナーでの会話をリアルタイムで文字化し、画面内に字幕として表示できます。発話を視覚化することでより
GitHub - NVIDIA/NeMo: A scalable generative AI framework built for researchers and developers working on Large Language Models, Multimodal, and Speech AI (Automatic Speech Recognition and Text-to-Speech)
- 5 users
- github.com/NVIDIA
- テクノロジー
- 2020/11/30
Large Language Models and Multimodal Accelerate your generative AI journey with NVIDIA NeMo Framework on GKE (2024/03/16) An end-to-end walkthrough to train generative AI models on the Google Kubernetes Engine (GKE) using the NVIDIA NeMo Framework is available at https://github.com/GoogleCloudPlatform/nvidia-nemo-on-gke. The walkthrough includes detailed instructions on how to set up a Google Clou
会議発言をAIが書き起こし、議事録作成を楽に　NTTテクノクロスが新サービス
- 5 users
- www.itmedia.co.jp
- テクノロジー
- 2020/08/25
NTTテクノクロスは8月24日、音声認識AIで会議中の発言を書き起こし、議事録作成を効率化するサービス「SpeechRec Plus for Meeting」を31日から提供すると発表した。約1000万語の音声認識に対応。会議でよく使われる例文を多く学習しており、長時間の会議音声も自動で書き起こせるという。 NTT研究所のAI技術をベースにした音声認識ソフトウェア「SpeechRec」を議事録作成用にカスタマイズした。話者や重要部分のタグ付け、テキストの検索機能なども搭載。業界ごとの単語や発話例などを学習した音声認識モデルもオプションで追加できる。地方議会や金融分野などのモデルをそろえているという。
声でカーナビを操作！　ディープラーニングによる音声認識技術の応用事例 #ディープラーニング
- 5 users
- techblog.yahoo.co.jp
- テクノロジー
- 2019/12/15
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部で音声認識の技術開発を担当している木田です。この年末年始、帰省や旅行でお出かけの際にカーナビを利用される方が多いのではないでしょうか？ヤフーではYahoo!カーナビというサービスを提供していますが、2018年12月に音声によるハンズフリー操作機能が導入されました（2019年12月現在はAndroid版のみ対応）。今回はその技術の裏側をご紹介します！写真：アフロ使い方とシステム構成それでは、この機能の使い方を説明します。まずはYahoo!カーナビを起動し、こちらのページに記載している設定を行うことで、ハンズフリー操作が有効になります。設定ができたら、「ねぇヤフー」と呼びかけてみてください
- yahoo
音声通話やビデオ通話と併用し、音声認識で会話ログが取れるサービスを作ってみました - Skyway Walkers
- 4 users
- iwatendo.hateblo.jp
- 世の中
- 2020/05/02
現在、音声通話やビデオ通話が可能なサービスは多数存在するのですが、会話の内容を音声認識で字幕表示したり、テキストとして残せるサービスはそれほど多くないように思います。（現状だと英語のみ対応というケースが多い気がします）そのため、音声通話やビデオ通話と併用して利用する事で、日本語での会話内容をテキストで残せるサービスを作ってみました。 ※2020/06/08 追記：サービスの名前変更しました。 skybeje.net 使い方は簡単です。音声通話やビデオ通話をしている状態で「Talk To CSV」にアクセス（簡易チャットルームが作られます）上段の「招待URLをコピー」を押し、URLをクリップボードにコピーします。（招待URLは起動のだびに毎回変わる事に注意してください）音声通話やビデオ通話の参加者に、そのURLを伝えます。参加者全員にGoogle Chromeで、そのURLを開い