並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 190件

新着順 人気順

音声認識の検索結果121 - 160 件 / 190件

  • TechCrunch

    When Joanna Strober was around 47, she stopped sleeping. While losing sleep is a common symptom of perimenopause, she first had to go to multiple providers, including driving 45 minutes out of San Fra The Federal Trade Commission hit Razer with a $1.1 million fine Tuesday. The order claims that the gaming accessory maker misled consumers by claiming that its flashy Zephyr mask was certified as N95

      TechCrunch
    • Engadget | Technology News & Reviews

      Parrots in captivity seem to enjoy video-chatting with their friends on Messenger

        Engadget | Technology News & Reviews
      • 【徹底解説】VB-Audio Virtual Cableのインストール方法と使い方

        この記事には広告を含む場合があります。 記事内で紹介する商品を購入することで、当サイトに売り上げの一部が還元されることがあります。

          【徹底解説】VB-Audio Virtual Cableのインストール方法と使い方
        • 国内シェア1位はiPhoneで変わらず ドコモ「ケータイ社会白書2019年版」

          NTTドコモ モバイル社会研究所が、スマートフォンとケータイ(ガラケー)の利用状況をモバイル社会研究所が独自に調査した結果をまとめたデータブック「ケータイ社会白書2019年版」を公開している。 スマートフォン比率は、2010年は3.6%だったのが、2019年は83.5%にまで増加し、ケータイ利用率は16.1%と2018年の24.8%を下回る。

            国内シェア1位はiPhoneで変わらず ドコモ「ケータイ社会白書2019年版」
          • WhisperとGoogle Colaboratoryで音声の文字起こしをやってみた

            AI 業界の進化が著しい昨今、AI の研究開発企業として名高い OpenAI から Whisper というとんでもない自動音声認識モデルの発表がありました。(2022/09/22)Whisper は 68 万時間かけてトレーニングされた自動音声認識モデルでなんとオープンソース化されています。 公開されているサンプルでは早口や K-POP、フランス語、アクセントのある会話などを問題なく処理できることが示されています。また日本語に関しても高い精度を保持していることがグラフから見て取れます。 Whisper の GitHub リポジトリより引用 この記事で行うこと この記事では Whisper を Google が提供する Colaboratory で利用し、文字起こしツールを作成していきたいと思います。 今回やりたいことは以下の 3 つになります。 音声データから文字起こしができる 文字起こし

              WhisperとGoogle Colaboratoryで音声の文字起こしをやってみた
            • Windows 10でも日本語の音声入力ができるようになるみたいです!【高橋忍のにゃんともWindows】

                Windows 10でも日本語の音声入力ができるようになるみたいです!【高橋忍のにゃんともWindows】
              • Introducing a foundational multimodal model for speech translation

                Today, we’re introducing SeamlessM4T, a foundational multilingual and multitask model that seamlessly translates and transcribes across speech and text. SeamlessM4T supports: Automatic speech recognition for nearly 100 languagesSpeech-to-text translation for nearly 100 input and output languagesSpeech-to-speech translation, supporting nearly 100 input languages and 35 (+ English) output languagesT

                  Introducing a foundational multimodal model for speech translation
                • ポケトークにアプリ版、翻訳で世界市場へ

                    ポケトークにアプリ版、翻訳で世界市場へ
                  • NPCとのリアルタイム音声会話を可能にする「Smart NPCs」発表!AIを利用したUnreal Engine向けプラグイン | Game*Spark - 国内・海外ゲーム情報サイト

                      NPCとのリアルタイム音声会話を可能にする「Smart NPCs」発表!AIを利用したUnreal Engine向けプラグイン | Game*Spark - 国内・海外ゲーム情報サイト
                    • iOS/iPadOS 17.4のポッドキャストアプリでは英語など一部言語で「文字起こし」機能がサポート。

                      iOS/iPadOS 17.4のポッドキャストアプリでは英語など一部言語で「文字起こし」機能がサポートされています。詳細は以下から。 Appleは現地時間2024年03月05日、iPhone XS以降のiPhoneやiPad (第6世代)以降のiPadなどに対し「iOS 17.4/iPadOS 17.4 Build 21E219」を正式にリリースしましたが、このiOS/iPadOS 17.4ではAppleのポッドキャストアプリで文字起こし機能が追加サポートされています。 文字起こし機能により、英語、スペイン語、フランス語、およびドイツ語でオーディオと同時にテキストがハイライト表示されエピソードを追うことが可能 リリースノートより Appleによると、ポッドキャストアプリの文字起こし機能は、本日より最新のエピソードに文字起こししたテキストが追加され、過去のエピソードも今後順次文字起こし処理さ

                        iOS/iPadOS 17.4のポッドキャストアプリでは英語など一部言語で「文字起こし」機能がサポート。
                      • TechCrunch | Startup and Technology News

                        After Apple loosened its App Store guidelines to permit game emulators, the retro game emulator Delta — an app 10 years in the making — hit the top of the…

                          TechCrunch | Startup and Technology News
                        • Pythonで学ぶ音声認識 機械学習実践シリーズ - インプレスブックス

                          3,850円(本体 3,500円+税10%) 品種名書籍 発売日2021/5/20 ページ数352 サイズB5変形判 著者 高島遼一 著 ISBN 9784295011385 「音声認識」とは音声信号から発話内容を認識することで、AIスピーカなどに利用されている技術です。本書は、音声認識技術の発展経緯を学びながら、深層学習を用いた最新の音声認識システムを実装できるまでを目的とし、手法の目的やアルゴリズムの概要を解説、続いて数式レベルでの詳説、最後にソースコード付きで実装という流れで解説しています。特に手法の概要については「その手法は何を目的として生み出されたのか」という経緯と「なぜその手法は前述の目的を達成できるのか」について直感的に理解できるよう工夫しています。 目次を見る

                            Pythonで学ぶ音声認識 機械学習実践シリーズ - インプレスブックス
                          • USBマイク、カワイイ「SNOWBALL」とカッチョイイ「Yeti X」で音質どう変わる?【日沼諭史の体当たりばったり!】

                              USBマイク、カワイイ「SNOWBALL」とカッチョイイ「Yeti X」で音質どう変わる?【日沼諭史の体当たりばったり!】
                            • 日本語の音声認識はなぜ難しい? 精度向上のカギは、「辞書」と「文脈」にあった

                              スマホの音声入力では、マイクに向かってしゃべった声が、リアルタイムに文章として入力されます。その裏側を支えているのが「音声認識」。声を分析し、文字のデータに変換する技術です。「Alexa、電気消して」も「Hey Siri、明日の天気は?」も、音声認識なしには実現しません。 最近では、会議の音声から議事録を作ったり、音声で作業記録を付けたりなど、音声認識の用途は拡がりを見せているそう。一方で、「インタビューの文字起こしがうまくいかない」など、思うように認識されないという声も耳にします。 そもそも、音声認識はどうやって人間の声を認識しているのか? 日本語の音声認識はどこが難しいのか? 音声認識ソリューションを手がける株式会社アドバンスト・メディアの安藤さんに、音声認識の気になる裏側を聞きました。 株式会社アドバンスト・メディア 1997年に創業し、音声認識技術「AmiVoice」をコアとした各

                                日本語の音声認識はなぜ難しい? 精度向上のカギは、「辞書」と「文脈」にあった
                              • 日本語音声のマイク入力をオフラインでリアルタイム音声認識:「VOSK」を JavaScript(Node.js)で扱う - Qiita

                                この記事の内容は、オフラインでリアルタイム音声認識ができ、日本語にも対応している以下の「VOSK」を試してみた話です。 ●VOSK Offline Speech Recognition API https://alphacephei.com/vosk/ そして今回の記事で、VOSK を扱う開発言語・環境は「JavaScript(Node.js)」です(自分がよく使っているから、という選定理由です)。 なお、対応している他の開発言語などは、公式ページの「Installation」を見ると確認でき、例えばスマホ向け(Android・iOS)や Python・Java・C# などもあるようです。 VOSK を「JavaScript(Node.js)」で扱う それでは、タイトルや冒頭にも書いた JavaScript(Node.js)で VOSK を扱う話へと進んでいきます。 公式ドキュメントの情報

                                  日本語音声のマイク入力をオフラインでリアルタイム音声認識:「VOSK」を JavaScript(Node.js)で扱う - Qiita
                                • Windows上の任意アプリでGoogle音声入力を使う方法(インライン入力) | TeraDas(テラダス)

                                  (※これは管理人イチオシの記事です。) 今回は、Windows の任意アプリ上で Google 音声入力をインラインで使う方法を紹介します。 Windows 上での音声入力と言えば、Microsoft 純正の「Dictate」「ディクテーション」といった機能がありますが、Google 音声入力と比べると認識率がイマイチ。 一方の Google 音声入力は認識率は抜群なのに、Windows 上ではブラウザで動作する Google ドキュメントなどでしか(普通の方法では)利用できないのが欠点でした。 しかし、今回紹介する「Android スマホアプリと Windows をうまく組み合わせる」方法を使えば、Windows 上の任意アプリのインラインで Google 音声入力を使えるようになります。 Bluetooth ヘッドセットとの相性も非常に良く、Windows 上で実用的な音声入力を実現で

                                    Windows上の任意アプリでGoogle音声入力を使う方法(インライン入力) | TeraDas(テラダス)
                                  • 「Voidol 結月ゆかり」発売開始

                                    2020年9月29日より、AIリアルタイム声質変換システム「Voidol」用のボイスモデル「結月ゆかり(CV:石黒千尋) Voidol用ボイスモデル」のダウンロード販売が開始されました。 楽天ブックス:結月ゆかり(CV:石黒千尋) Voidol用ボイスモデル / 販売元:クリムゾンテクノロジー株式会社Amazon:結月ゆかり(CV:石黒千尋) Voidol用ボイスモデル|ダウンロード版 「Voidol - Powered by リアチェンvoice -」 ナレーターや演者様の声をかわいい女性の声やイケメンボイスなど様々な声にAIリアルタイム声質変換。 Amazon.co.jp PCソフト ダウンロードストア売れ筋ランキング1位獲得。 Windows10とmacOS Xに対応。販売中の多彩なボイスモデルの追加が可能です。 付属のボイスモデルも女性の「音宮いろは」少年風の「くりむ蔵」と男性の「

                                      「Voidol 結月ゆかり」発売開始
                                    • 音声認識モデル”Whisper”をストリーミング処理対応させる方法 | DevelopersIO

                                      こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、前回はtranscribeの内容を紐解きました。 Whisperが提供しているtranscribeのAPIは、バッチ処理のみに対応した構成となっており、リアルタイムに認識を試すのが難しくなっています。 そこで今回は、前回紐解いた結果を使ってストリーミング処理に対応させてみようと思います。 設計の概要 以下に設計の概要を図で示します。 前回ご紹介した通り、transcribeの中身は30秒単位で処理をしています(この単位を本記事ではフレームと呼びます)。 そして次の処理フレームは、前のフレームのタイムスタンプトークンの末尾から30秒となります。 そのためフレームをずらす長さ(これを本記事ではシフト長と呼びます)は動的になります。 そのため、設計方針は以下のようにしました。

                                        音声認識モデル”Whisper”をストリーミング処理対応させる方法 | DevelopersIO
                                      • iOS 15では火災警報や猫/犬、赤ん坊の泣き声などを認識してiPhoneに通知する「サウンド認識」機能に、ガラスの割れる音とやかん音が追加。

                                        iOS 15では火災警報や猫/犬、赤ん坊の泣き声などを認識してiPhoneに通知を出す「サウンド認識」機能に、ガラスの割れる音とやかんの音が追加されています。詳細は以下から。 Appleは2020年09月にリリースした「iOS 14/iPadOS 14」でアクセシビリティ機能の1つとして、火災報知器やサイレンなどの音を聞き逃してしまう聴覚に障害があるユーザー向けに、オンデバイスの音声認識処理を利用し、iPhoneやiPadの周辺で警報やサイレンが鳴ると通知を表示する「サウンド認識」機能を導入しましたが、 現地時間2021年09月20日に新たにリリースされた「iOS 15/iPadOS 15」では、このサウンド認識機能に「ガラスの割れる音」と「やかん(が沸く音)」が新たに追加されています。 サウンド認識を使う iOS 14/iPadOS 14以降のiPhoneやiPadデバイスでサウンド認識

                                          iOS 15では火災警報や猫/犬、赤ん坊の泣き声などを認識してiPhoneに通知する「サウンド認識」機能に、ガラスの割れる音とやかん音が追加。
                                        • ミニマリストはテクノロジーのおかげな話

                                          なんでもスマホでできちゃう弊害 ひとつでなんでもできてしまうことの弊害もあります。 スマホがないと何もできないくらいスマホに依存する生活になりました。 中毒性もあります。 なんでもスマホでできちゃうので、ちょっとでも時間ができると何となくスマホに手が伸びてしまいます。 スマホのアプリは注目を浴びてもらうために色んな工夫がされています。 自分もその一人ですが、YouTubeやSNSで無益な時間を過ごしてしまった!ということも増えました。 サブスクリプションで持たずにすむモノ 本・映画・音楽などのコンテンツ サブスクリプションサービスの登場で、本や、映画、音楽は持たずにすむようになりました。 よくお世話になっているのは、Amazonです。 Kindle Amazon Music Prime Video とこの辺はよく使ってます。 Amazon以外にも、Hulu、Spotifyとか…、今やたくさ

                                            ミニマリストはテクノロジーのおかげな話
                                          • 情シスがオフィスの顔を一瞬で変えた!?「受付アプリ開発」秘話

                                            こんにちは!ブランディングプロジェクトのだーはらです。 現在ほぼ在宅勤務の日々なのですが、久々オフィスへ出社したら、前々からお話聞きたいなーと思っていた人がたまたまいらっしゃいまして。 速攻インタビューのセッティング! ということで、今回はColorkrew(カラクル)のイケてる受付アプリを開発した情シス担当の小嶋さんに突撃インタビューしてみました! 社歴20年!情シス、小嶋さんのあれやこれや 原田:急なインタビューですが、今日はよろしくお願いします! 小嶋:いえいえ、こちらこそ! 原田:前々から聞きたかった「受付アプリの開発」についての話の前に、まずは、小嶋さんのパーソナルヒストリーを少し伺えられたらなぁと思っているのですが。 小嶋:パーソナルヒストリーですか。どこから話せば良いですかね。一応私は、カラクルの中では、最古参の方になるかな?私より前にいたのは西村さんくらいかな?と。 原田:

                                              情シスがオフィスの顔を一瞬で変えた!?「受付アプリ開発」秘話
                                            • Apple、新しい絵文字やポッドキャストアプリでの文字起こし機能、iPhone 15シリーズのバッテリー表示を最適化しゼロデイ脆弱性を修正した「iOS/iPadOS 17.4」を正式にリリース。

                                              Appleが新しい絵文字やポッドキャストアプリでの文字起こし機能、iPhone 15シリーズのバッテリー充放電回数や製造日表示などを追加した「iOS/iPadOS 17.4」を正式にリリースしています。詳細は以下から。 Appleは現地時間2024年03月05日、iPhone XS以降のiPhoneやiPad (第6世代)以降のiPadなどに対し新しい絵文字やポッドキャストアプリの文字起こし機能などを実装した「iOS 17.4 Build 21E219」および「iPadOS 17.4 Build 21E219」アップデートを正式にリリースしたと発表しています。 このアップデートでは、新しい絵文字とApple Podcastでの文字起こしが導入され、iPhoneでのその他の機能、バグ修正、およびセキュリティアップデートも含まれます。 リリースノートより抜粋 iOS/iPadOS 17.4では

                                                Apple、新しい絵文字やポッドキャストアプリでの文字起こし機能、iPhone 15シリーズのバッテリー表示を最適化しゼロデイ脆弱性を修正した「iOS/iPadOS 17.4」を正式にリリース。
                                              • OK、グーグル。アルファベットを買収して。直ちに実行致します。ノブレス・オブリージュ 今後も救世主たらんことを

                                                Bluetoothのスピーカーが欲しくなった。私は、ブログを書いている時は大概ラジオを聞きながらやっているのだけども、ラジコのタイムフリー(過去の放送を振り返って聞くことができる)で聞き逃したものを聞きながらというのがいつものパターンだ。その際はまずTraveling Without Movingを聞き、まだ書くものが残っていたらジェットストリームへ移行する。後はもう写真を貼っ付けたり誤字脱字の直しだけとなれば、レコーダーに録っておいたWBS(ワールドビジネスサテライト)なんかをながら見しながらというのがいつもの事となる。&nbsp… 使わなければ使わなくても良いのだけども、それはやっぱりもったいない。 そこで考えた。 そうだ、スマートスピーカーを買えば良いじゃあないか、と。 というのも、私の家はあまりラジオの入りがよろしくない。 ちゃんと入るのは、NHK第一、第二とニッポン放送くらいで、

                                                  OK、グーグル。アルファベットを買収して。直ちに実行致します。ノブレス・オブリージュ 今後も救世主たらんことを
                                                • Googleアシスタントがよりシームレスで正確な会話ができるよう進化、開発ツールもより簡易なものに

                                                  現地時間2020年6月17日に行われた音声テクノロジーに関するオンラインカンファレンス「Voice Global」の中で、GoogleがGoogleアシスタントのコアプラットフォームと開発ツールを改善したと発表しました。 Google Developers Blog: Voice Global 2020: New improvements to core platform and development tools for Google Assistant https://developers.googleblog.com/2020/06/voice-global-2020-new-improvements-to-core-platform.html Googleアシスタントは30を超える言語に対応しており、毎月5億人を超える人々が使用するAIアシスタントです。GoogleはGoogleア

                                                    Googleアシスタントがよりシームレスで正確な会話ができるよう進化、開発ツールもより簡易なものに
                                                  • テープ起こし不要? Pixel 6の「日本語文字起こし」が凄い(山口健太) - エキスパート - Yahoo!ニュース

                                                    10月28日発売のグーグル最新スマホ「Pixel 6」シリーズ。普通のAndroidスマホに比べてグーグルの最新AIをいち早く体験できるのが特徴ですが、その中でも「文字起こし」の機能が注目されています。 筆者のように取材が多い仕事にICレコーダーは必須アイテムですが、仕事や学業に活用している人も多いのではないでしょうか。しかし録音を聞きながら必要な情報を取り出す作業は面倒なものです。 この面倒な文字起こし作業をスマホ標準の機能として実現してしまったのが「レコーダー」アプリです。これまでは英語が先行してきましたが、Pixel 6では新たに日本語に対応しています。 録音中の画面。音声がどんどん文字に変換されていく(筆者作成) 実際にPixel 6のレコーダーアプリで録音し、文字起こしをさせてみた結果がこちら。さすがに認識ミスはあり、意味が分かりにくい部分はあるものの、スマホ標準の機能で何の労力

                                                      テープ起こし不要? Pixel 6の「日本語文字起こし」が凄い(山口健太) - エキスパート - Yahoo!ニュース
                                                    • Apple、「Hey」を省き「Siri」だけで利用可能になる変更をWWDCで発表の可能性:Gurman氏 - こぼねみ

                                                      Appleは今年のWWDCで「Hey Siri」の「Hey」を省くという大きな変更を発表する可能性をBloombergのMark Gurman氏がツイートしています。 Siri単に「Hey」をなくすだけなので、わずかな変化のようにもみえますが、決してそうではなく、この変更は技術的な挑戦であり、相当量のAIトレーニングと根本的なエンジニアリング作業を必要となるとGurman氏は以前報告していました(関連記事)。 というのも「Hey Siri」にはSiriが複数の異なるアクセントや方言で「Siri」という単一のフレーズを理解できるようにすることが含まれており、「Hey Siri」という2つの単語があることで、システムが正しく信号を取得する可能性を高めることができるからです。 AppleがWWDCで発表する見込みのMRヘッドセットは音声コントロールを搭載すると噂されており、Siriの改良は新デバ

                                                        Apple、「Hey」を省き「Siri」だけで利用可能になる変更をWWDCで発表の可能性:Gurman氏 - こぼねみ
                                                      • whisper、whisper.cpp、faster-whisperの比較

                                                        現状のwhisper、whisper.cpp、faster-whiperを比較してみたいと思います。 openai/whisperに、2022年12月にlarge-v2モデルが追加されたり、色々バージョンアップしていたりと公開からいろいろと進化しているようです。 CPU向けにC/C++で書かれたバージョンです。Core ML supportだそうですので、Mac向け感が強いです。 CTranslate2でWhisperモデルの書き直して、オリジナルと同等の精度で4倍速く、メモリ使用量も少ないそうです。 以降、すべてGoogle Colabで実行しています。 サンプルは、アナウンスの音声(WAV)の場合(48秒)を試しました。 結果 faster-whisperのGPUは噂通り爆速でした。 本家whisperはCPUが速いです。GPUでも初期に比べて85.62s → 23.9sに高速化してま

                                                          whisper、whisper.cpp、faster-whisperの比較
                                                        • Whisperで文字起こしする方法(ローカル環境にDockerを添えて)

                                                          音声のテキスト変換 Web上にいくらでも情報があるWhisperでの文字起こしです。API使うとお金がかかるので、ローカル環境でDocker使って(Docker使えれば)手軽に実行できるのが特徴です。 CPUでもGPUでも動きます。Apple SiliconMacでもLinuxでも多分Windows(WSL2)でも動きます。 Dockerファイルや使うソフトはGitHubのリポジトリに公開しています。 この記事は上記リポジトリの自分のための使い方のメモです。 使い方 ファイル準備 文字起こしする音声ファイルを用意します。ここではinput.mp3とします。 Docker準備 Dockerがない人は、Dockerをインストールしましょう。LinuxかWindows(WSL2)なら、とりあえず以下コマンドを実行すればOKです。Macの人はDockerデスクトップを使いましょう。 $ curl

                                                            Whisperで文字起こしする方法(ローカル環境にDockerを添えて)
                                                          • 「E2E音声認識」と「話者分離」のためのラベルなしデータ学習 「CLOVA Note」で認識性能向上するための技術

                                                            2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこでEnd-to-End音声認識技術の実用化とAI音声記録サービス「CLOVA Note」について紹介されました。まずはNAVERのリュー ヒョクス氏から、サービスの紹介とそれに使われている技術について。 CLOVA Speechチーム リューヒョクス氏:End-to-End音声認識と「CLOVA Note」というサービスについて、LINEの木田とNAVERのリューヒョクスが発表します。この音声認識は、NAVER CLOVA、LINEのSpeechチーム共同での研究開発の成果です。よろしくお願いします。 本日は2部構成で発表いたします。最初にNAVER CLOVAのリューヒョクスがEnd-to-End音声認識とは

                                                              「E2E音声認識」と「話者分離」のためのラベルなしデータ学習 「CLOVA Note」で認識性能向上するための技術
                                                            • これで音声テキスト化が楽になる!Pythonで音声認識を作る方法

                                                              最近ではPythonでプログラミングをしたり、AI(人工知能)を使ったりする人が増えていますよね。 Pythonでプログラミングして作れる物の一つに、音声認識があります。以前は音声認識の精度があまり良くありませんでしたが、近年、音声認識の精度は驚くほど向上し、色々な言語の違いだけではなく、方言まで認識することができるようになったとのこと。さらに、さまざまなAPIの登場などにより、音声認識のプログラムを作成した経験がない人でも簡単に、Pythonで音声認識ができるようになりました。 とはいえ、何も知らない状態でいきなり音声認識を作るのはやはり難しいでしょう。そこで今回は、Pythonで音声認識を作る方法についてお伝えします。1つ1つ丁寧に解説していくので、Pythonの音声認識の作り方について、一緒にマスターしましょう!

                                                                これで音声テキスト化が楽になる!Pythonで音声認識を作る方法
                                                              • GitHub - sdkcarlos/artyom.js: A voice control - voice commands - speech recognition and speech synthesis javascript library. Create your own siri,google now or cortana with Google Chrome within your website.

                                                                Due to abuse of users with the Speech Synthesis API (ADS, Fake system warnings), Google decided to remove the usage of the API in the browser when it's not triggered by an user gesture (click, touch etc.). This means that calling for example artyom.say("Hello") if it's not wrapped inside an user event won't work. So on every page load, the user will need to click at least once time per page to all

                                                                  GitHub - sdkcarlos/artyom.js: A voice control - voice commands - speech recognition and speech synthesis javascript library. Create your own siri,google now or cortana with Google Chrome within your website.
                                                                • A new AI-powered speech translation system for Hokkien pioneers a new approach for a primarily oral language

                                                                  Meta’s new AI-powered speech translation system for Hokkien pioneers a new approach for an unwritten language Until now, AI translation has mainly focused on written languages. Yet nearly half of the world’s 7,000+ living languages are primarily oral and do not have a standard or widely used writing system. This makes it impossible to build machine translation tools using standard techniques, whic

                                                                    A new AI-powered speech translation system for Hokkien pioneers a new approach for a primarily oral language
                                                                  • 市場は「ヒアラブル」の時代へ? アマゾン参入でウェアラブルデバイスの音人気加速 | Beyond(ビヨンド)

                                                                    高機能なワイヤレスイヤホンや、音声コマンドでも動作するスマートイヤホンなどを総称する「ヒアラブルデバイス」というジャンルが注目されている。出荷台数は順調に伸びスマートウォッチと肩を並べるほどだ。スマートスピーカー市場でトップを走るアマゾンも、アレクサを搭載した「Echo Buds」を発表。ウェアラブル市場で“音”の人気が加速しそうだ。 イヤホンなどのヒアラブルデバイスに注目 ソニーの携帯カセットテープ・プレーヤー「ウォークマン」が40年前に発売された当初、ヘッドホン姿で街を歩くと奇異な目で見られた。それが今では、当たり前の風景だ。そのあいだに、再生される音楽メディアはテープからCD、MD、MP3ファイルへと変化し、今やストリーミング配信になった。 ヘッドホンやイヤホンはワイヤレス型が増え、使われる無線技術もアナログ方式のFM電波から、デジタル方式のBluetoothに進化した。しかも、ただ

                                                                      市場は「ヒアラブル」の時代へ? アマゾン参入でウェアラブルデバイスの音人気加速 | Beyond(ビヨンド)
                                                                    • [M1] 音声認識ツール Voskを動かす [Node] | DevelopersIO

                                                                      Introduction 各所で話題の日本語音声認識ツール,Voskがすごいです。 実際やってみたところ、簡単なプログラムで日本語のリアルタイム音声認識ができました。 (M1非対応かと思ってたけど、なんか普通に動いた) VoskのインストールからNodeで動かすところまでやっていきます。 Environment OS : MacOS 12.4 Node : v18.2.0 yarn : 1.22.15 MacBook Pro (13-inch, M1, 2020)で動作確認。 Try では実際にやってみます。 Githubにはいろいろなサンプルがありますが、 今回はこのシンプルなプログラムを使ってみます。 このサンプルはマイクから入力された音声を 日本語でコンソールに表示するだけのシンプルなものです。 まずは適当なディレクトリを作成し、voskをインストール。 % mkdir vosk-e

                                                                        [M1] 音声認識ツール Voskを動かす [Node] | DevelopersIO
                                                                      • `large-v3` release · openai/whisper · Discussion #1762

                                                                        We're pleased to announce the latest iteration of Whisper, called large-v3. Whisper-v3 has the same architecture as the previous large models except the following minor differences: The input uses 128 Mel frequency bins instead of 80 A new language token for Cantonese The large-v3 model is trained on 1 million hours of weakly labeled audio and 4 million hours of pseudolabeled audio collected using

                                                                          `large-v3` release · openai/whisper · Discussion #1762
                                                                        • AI音声認識を活用した文字起こしでZoomミーティング・ウェビナーの字幕機能を搭載 | DXを推進するAIポータルメディア「AIsmiley」

                                                                          株式会社アドバンスト・メディアは、AI音声認識を活用した文字起こし支援アプリケーションに、Zoomミーティング・ウェビナーの字幕機能を搭載したことを発表しました。 このAIニュースのポイント AI音声認識を活用した文字起こしでZoomミーティング・ウェビナーの字幕機能を搭載 難聴者・聴覚障がい者との会議にも活用が可能 ソフトをインストールしていない人の画面にも字幕表示が可能 株式会社アドバンスト・メディアは、AI音声認識を活用した文字起こし支援アプリケーション「AmiVoice ScribeAssist」に、Zoomミーティング・ウェビナーの字幕機能を搭載したことを発表しました。また、2月19日(金)、ヤマハ ウェビナーにてZoom連携活用について講演が行われます。 Zoomミーティング・ウェビナーでの会話をリアルタイムで文字化し、画面内に字幕として表示できます。発話を視覚化することでより

                                                                            AI音声認識を活用した文字起こしでZoomミーティング・ウェビナーの字幕機能を搭載 | DXを推進するAIポータルメディア「AIsmiley」
                                                                          • GitHub - NVIDIA/NeMo: A scalable generative AI framework built for researchers and developers working on Large Language Models, Multimodal, and Speech AI (Automatic Speech Recognition and Text-to-Speech)

                                                                            Large Language Models and Multimodal Accelerate your generative AI journey with NVIDIA NeMo Framework on GKE (2024/03/16) An end-to-end walkthrough to train generative AI models on the Google Kubernetes Engine (GKE) using the NVIDIA NeMo Framework is available at https://github.com/GoogleCloudPlatform/nvidia-nemo-on-gke. The walkthrough includes detailed instructions on how to set up a Google Clou

                                                                              GitHub - NVIDIA/NeMo: A scalable generative AI framework built for researchers and developers working on Large Language Models, Multimodal, and Speech AI (Automatic Speech Recognition and Text-to-Speech)
                                                                            • 会議発言をAIが書き起こし、議事録作成を楽に NTTテクノクロスが新サービス

                                                                              NTTテクノクロスは8月24日、音声認識AIで会議中の発言を書き起こし、議事録作成を効率化するサービス「SpeechRec Plus for Meeting」を31日から提供すると発表した。約1000万語の音声認識に対応。会議でよく使われる例文を多く学習しており、長時間の会議音声も自動で書き起こせるという。 NTT研究所のAI技術をベースにした音声認識ソフトウェア「SpeechRec」を議事録作成用にカスタマイズした。話者や重要部分のタグ付け、テキストの検索機能なども搭載。業界ごとの単語や発話例などを学習した音声認識モデルもオプションで追加できる。地方議会や金融分野などのモデルをそろえているという。

                                                                                会議発言をAIが書き起こし、議事録作成を楽に NTTテクノクロスが新サービス
                                                                              • 声でカーナビを操作! ディープラーニングによる音声認識技術の応用事例 #ディープラーニング

                                                                                ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部で音声認識の技術開発を担当している木田です。 この年末年始、帰省や旅行でお出かけの際にカーナビを利用される方が多いのではないでしょうか? ヤフーではYahoo!カーナビというサービスを提供していますが、2018年12月に音声によるハンズフリー操作機能が導入されました(2019年12月現在はAndroid版のみ対応)。 今回はその技術の裏側をご紹介します! 写真:アフロ 使い方とシステム構成 それでは、この機能の使い方を説明します。 まずはYahoo!カーナビを起動し、こちらのページに記載している設定を行うことで、ハンズフリー操作が有効になります。 設定ができたら、「ねぇヤフー」と呼びかけてみてください

                                                                                  声でカーナビを操作! ディープラーニングによる音声認識技術の応用事例 #ディープラーニング
                                                                                • 音声通話やビデオ通話と併用し、音声認識で会話ログが取れるサービスを作ってみました - Skyway Walkers

                                                                                  現在、音声通話やビデオ通話が可能なサービスは多数存在するのですが、会話の内容を音声認識で字幕表示したり、テキストとして残せるサービスはそれほど多くないように思います。(現状だと英語のみ対応というケースが多い気がします) そのため、音声通話やビデオ通話と併用して利用する事で、日本語での会話内容をテキストで残せるサービスを作ってみました。 ※2020/06/08 追記:サービスの名前変更しました。 skybeje.net 使い方は簡単です。音声通話やビデオ通話をしている状態で 「Talk To CSV」にアクセス(簡易チャットルームが作られます) 上段の「招待URLをコピー」を押し、URLをクリップボードにコピーします。 (招待URLは起動のだびに毎回変わる事に注意してください) 音声通話やビデオ通話の参加者に、そのURLを伝えます。 参加者全員にGoogle Chromeで、そのURLを開い

                                                                                    音声通話やビデオ通話と併用し、音声認識で会話ログが取れるサービスを作ってみました - Skyway Walkers