並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 135件

新着順 人気順

音声認識の検索結果1 - 40 件 / 135件

  • 培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応

    人間の幹細胞を基に作られた脳オルガノイド(ミニ脳)を電子チップに接続した「ブレイノウェア」と呼ばれるセットアップを構築して、簡単な計算タスクを実行することに成功したことが、インディアナ大学ブルーミントン校のエンジニアであるフェン・グオ氏らの研究チームによって報告されました。 Brain organoid reservoir computing for artificial intelligence | Nature Electronics https://www.nature.com/articles/s41928-023-01069-w Scientists Built a Functional Computer With Human Brain Tissue : ScienceAlert https://www.sciencealert.com/scientists-built-a-f

      培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応
    • 生成AIと音声認識を組み合わせて会議アシスタントツールを作ったら生産性が大幅に向上した話

      株式会社クラウドネイティブは、Azure OpenAIで自組織専用のChatGPTの構築を支援するサービスを展開しています。ChatGPTとAzure AD OpenAI Serviceの取り組みや事例、支援… IDチームの前田です。今日は生成AI(ChatGPT)と音声認識モデル(Whisper)を利用した会議アシスタントツールに関する投稿になります。 (追記) 作ったツールはGitHub上で公開しており、Dockerを利用してすぐに試せるようになってます。 https://github.com/cloudnative-co/mtg-ai-assistant 2023年8月30日現在Azure OpenAIにてWhisperが利用出来ていないため、OpenAI Whisper APIを利用した試験段階のものになります。近日中にAzure OpenAIにてWhisperが利用出来るとアナウ

        生成AIと音声認識を組み合わせて会議アシスタントツールを作ったら生産性が大幅に向上した話
      • 人間の脳細胞を電極の上に置いてつくった人工知能。日本語の音声認識を実現【研究紹介】

        人間の脳細胞を電極の上に置いてつくった人工知能。日本語の音声認識を実現【研究紹介】 2023年12月13日 米Indiana University Bloomingtonなどに所属する研究者らが発表した論文「Brain organoid reservoir computing for artificial intelligence」は、人間の脳細胞を用いて基本的な音声認識を行うAIシステムを提案した研究報告である。 このシステムは、生きている脳細胞の塊、すなわち脳オルガノイドを利用している。脳オルガノイドは、幹細胞を特定の条件下で育成することによって人工的に作られる、数ミリメートルの神経細胞の塊(ミニ脳組織)である。この脳オルガノイドは、最大で1億の神経細胞を含んでおり、計算に使用される。この脳オルガノイドは、成熟したニューロン、アストロサイト、神経前駆細胞など、さまざまな脳細胞のアイデン

          人間の脳細胞を電極の上に置いてつくった人工知能。日本語の音声認識を実現【研究紹介】
        • 培養脳でコンピューター 神経細胞で音声認識に成功、米インディアナ大学 - 日本経済新聞

          米インディアナ大学ブルーミントン校などは、人の幹細胞から作った神経細胞を集積した「培養脳」を用いて簡易なコンピューターを開発した。従来のコンピューターより少ない電力で計算できると期待される。実用化できれば、電力消費の拡大に対応する手段の一つとなる。人工知能(AI)の普及などデジタル化の急速な進展は電力の大量消費を伴う。例えば、米オープンAIの大規模言語モデル「GPT-3」が学習に必要な電力量は

            培養脳でコンピューター 神経細胞で音声認識に成功、米インディアナ大学 - 日本経済新聞
          • ヒトの脳組織を培養した「ミニ脳」でコンピューターの構築に成功。日本語音声認識や数学理論を理解 : カラパイア

            米国インディアナ大学ブルーミントン校の研究チームが開発したバイオコンピューターは、培養した人間の脳組織が組み込まれた文字通り”生きたコンピューター”だ。 どんなコンピューターにも敵わない人間の脳のパワーの秘密は、ニューロン(神経細胞)がプロセッサーとメモリの両方の役割を果たすことで生まれる効率性にある。 人間の幹細胞から培養した脳オルガノイド(生体外で3次元的に作られたミニ脳)を搭載した「Brainoware」は、コンピューターを脳に近づけようという試みをさらに一歩進めたもので、人間の音声を認識したり、カオスのような非線型方程式を予測したりすることに成功している。

              ヒトの脳組織を培養した「ミニ脳」でコンピューターの構築に成功。日本語音声認識や数学理論を理解 : カラパイア
            • スマート音声リモコン、音声認識エンジンのライセンス切れでサービス提供終了を予告【やじうまWatch】

                スマート音声リモコン、音声認識エンジンのライセンス切れでサービス提供終了を予告【やじうまWatch】
              • 脳オルガノイドをコンピューターに接続、日本語の音声認識に成功

                ヒト「脳オルガノイド」をコンピューター・チップに接続し、単純な計算タスクを実行できるシステムが開発された。新しいバイオ・コンピューターの可能性を示している。 by Abdullahi Tsanni2023.12.12 24 10 米研究チームが、シャーレの中で培養されたヒトの脳細胞の塊である「脳オルガノイド」を電子チップに接続し、簡単な計算タスクを実行することに成功。新たな研究成果として発表した。 発表したのは、インディアナ大学ブルーミントン校のフェン・グオ准教授らの研究チーム。幹細胞から作製した脳オルガノイドをコンピューター・チップに取り付けた「ブレイノウェア(Brainoware)」と呼ばれるセットアップを構築。人工知能(AI)ツールに接続した。研究チームは、このハイブリッド・システムが、情報を処理、学習、記憶できることを明らかにした。初歩的な音声認識の実行にも成功したという。12月1

                  脳オルガノイドをコンピューターに接続、日本語の音声認識に成功
                • Amazonが音声認識アシスタントAlexaに生成AIを導入、複雑なリクエストを処理可能に

                  現地時間2023年9月20日にバージニア州アーリントンにあるAmazonの第2本社で開催された発表会において、Amazonが音声認識アシスタント・Alexaに生成AIを導入し、スマートスピーカー・Echoファミリー全体のエクスペリエンスを向上させることを発表しました。 Amazon previews the future of Alexa with generative AI https://www.aboutamazon.com/news/devices/amazon-alexa-generative-ai AmazonはAlexaを2014年に発表して以来、「Alexaとの会話を、他の人と話すのと同じぐらい自然にすること」を目指して継続的な改善を続けてきました。生成AIの急速な進化により、目標はもはや手の届くところまで来ているとのこと。 Amazonでは、Alexaとの会話を自然なもの

                    Amazonが音声認識アシスタントAlexaに生成AIを導入、複雑なリクエストを処理可能に
                  • GoogleのAI「Gemin 1.5 Pro」が180カ国で利用可能に。音声認識も対応

                      GoogleのAI「Gemin 1.5 Pro」が180カ国で利用可能に。音声認識も対応
                    • Google Cloud上でGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみた | DevelopersIO

                      こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。 この記事は、ブログリレー『Google CloudのAI/MLとかなんとか』の3本目の記事になります。 今回は、Vertex AIからGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみたいと思います。 Chirpについて 以下に詳しい説明があります。 Chirp: Universal speech model  |  Cloud Speech-to-Text V2 documentation  |  Google Cloud ChirpはGoogleの次世代音声認識モデルで、現在の音声モデルとは異なるアーキテクチャで学習させたモデルとなっているようです。 Google CloudではCloud Speech-to-Text V2における一つのモデルとして使用できます。その他

                        Google Cloud上でGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみた | DevelopersIO
                      • Amazonが70億円超の支払いを音声認識アシスタント「Alexa」による特許侵害で命じられる

                        Amazonのスマートスピーカーである「Echo」と、これに搭載されている音声認識アシスタントの「Alexa」が、4件の特許を侵害しているとして4670万ドル(約70億円)の支払いを命じられました。 Alexa just cost Amazon another $46.7 million | Ars Technica https://arstechnica.com/gadgets/2023/11/alexa-just-cost-amazon-another-46-7-million/ Nuance Communications傘下のVB Assets(旧VoiceBox Technologies)が、AmazonのEchoおよびAlexaが同社の保有する特許を侵害したとして、デラウェア州連邦裁判所で特許侵害訴訟を起こしました。訴訟の中で、VB Assetsは「インターネットに接続して女性の

                          Amazonが70億円超の支払いを音声認識アシスタント「Alexa」による特許侵害で命じられる
                        • iOS/macOSオンデバイスで爆速で動作する音声認識モデルWhisperKit - Sansan Tech Blog

                          iOSエンジニアの堤です。先日3月28日に開催された弊社主催のLTイベントで、「WhisperKitがだいぶ良いので紹介する」というタイトルで発表しました。 スライドはこちら: www.docswell.com 本記事は、同発表をベースとしつつ、(LTでは時間が足りないので)発表ではカットした内容を盛り込んで記事として再構成したものになります。 WhisperKitとは iOS/macOSオンデバイスで動く音声認識のすごいやつ デモ:標準の音声認識フレームワークSpeechとの比較 Speech WhisperKit なぜ速いのか - WhisperKitの系譜 OpenAI Whisper whisper.cpp Core ML とは whisper.cpp から WhisperKitへ argmax社とApple モデルサイズとメモリ消費量 各モデルのファイルサイズ一覧 メモリ使用量

                            iOS/macOSオンデバイスで爆速で動作する音声認識モデルWhisperKit - Sansan Tech Blog
                          • [みんなのケータイ]音声認識の精度は音響と取り込むマイクに左右されると思う日々

                              [みんなのケータイ]音声認識の精度は音響と取り込むマイクに左右されると思う日々
                            • 日本語音声認識に特化したWhisperである kotoba-whisper-v1.0を早速試してみた | DevelopersIO

                              はじめに 昨日公開された日本語音声認識に特化した「Kotoba-Whisper」のkotoba-whisper-v1.0を試してみました。 本モデルは、OpenAIの「Whisper large-v3」を教師モデルとして使用し、蒸留(大規模な学習モデルから、同機能を持つより小さなモデルを開発する手法)を用いて開発されました。 kotoba-whisper-v1.0は、ReazonSpeechコーパスの一部である日本語音声と文字起こしのペアデータセットを使用して学習されたモデルです。学習データには、日本のテレビ番組の音声と、文字起こしたものが含まれています。具体的には、1,253時間の音声データと16,861,235文字の文字起こしデータが使用されています。 本モデルは、Pythonのライブラリであるtransformersに対応しており、短時間の音声ファイルの文字起こしから、長時間の音声フ

                                日本語音声認識に特化したWhisperである kotoba-whisper-v1.0を早速試してみた | DevelopersIO
                              • 「車特化型ソフトウェアプラットフォーム」や「次世代音声認識」の開発も担う コネクテッド先行開発部における、IVIソフトウェア開発

                                トヨタ自動車株式会社が主催となって行うプログラミングコンテスト「TOYOTA Programming Contest 2023 Summer」。トークセッション「ソフトウェア開発事例の紹介」で登壇したのは、トヨタ自動車株式会社 コネクテッド先行開発部の鈴木真一氏。In-Vehicle Infotainment systemの開発について発表しました。 登壇者の自己紹介 高橋直大氏(以下、高橋):大手町オフィスにあるコネクテッド先行開発部から、鈴木真一さまにお越しいただきました。よろしくお願いいたします。 鈴木真一氏(以下、鈴木):よろしくお願いします。 前段いろいろとお話しさせていただいていましたが、ソフトウェアの開発事例紹介ということで、In-Vehicle Infotainment systemの開発について紹介させていただきたいと思います。 あらためまして、トヨタ自動車コネクテッド先

                                  「車特化型ソフトウェアプラットフォーム」や「次世代音声認識」の開発も担う コネクテッド先行開発部における、IVIソフトウェア開発
                                • NVIDIAが音声認識追加や画像検索改善を行ったAIチャットボット「ChatRTX」を公開

                                  NVIDIAが、AIチャットボット「ChatRTX」でサポートするLLMを追加して画像検索機能の改善や音声認識機能の追加を行ったことを発表しました。 Build a Custom LLM with ChatRTX | NVIDIA https://www.nvidia.com/en-us/ai-on-rtx/chatrtx/ ChatRTX Adds New AI Models and Features | NVIDIA Blog https://blogs.nvidia.com/blog/ai-decoded-chatrtx-update/ Nvidia’s AI chatbot now supports Google’s Gemma model, voice queries, and more - The Verge https://www.theverge.com/2024/5/1/

                                    NVIDIAが音声認識追加や画像検索改善を行ったAIチャットボット「ChatRTX」を公開
                                  • Googleを上回る音声認識精度ですべての「商談」を文字起こし 海外ピッチの優勝回数2桁超のベンチャーが見る、AI API市場の魅力

                                    「IVS2023 KYOTO」内にて、次世代の起業家の登竜門とも言われる日本最大級のスタートアップピッチコンテスト「IVS LAUNCHPAD」が開催されました。本記事では、海外のピッチコンテストで10度以上優勝を経験しているPoeticsの山崎はずむ氏による、セールステックからより大きなAI API市場への展開ついての6分間のプレゼンテーションをお届けします。 「なぜ失注したのか」が見えない、営業のブラックボックス化 山崎はずむ氏(以下、山崎):はじめまして、Poeticsの山崎と申します。我々は電話・オンライン商談を解析するAI「JamRoll」を提供しています。 JamRollが解決する課題は、営業のブラックボックス化問題。成約・失注といった結果はSalesforceを見ればわかりますが、「なぜ失注したのか」というプロセスが見えないと改善策を打ち出せません。 一方で、成約や失注の原因

                                      Googleを上回る音声認識精度ですべての「商談」を文字起こし 海外ピッチの優勝回数2桁超のベンチャーが見る、AI API市場の魅力
                                    • 「watchOS 11」が登場、手首で手軽に音声認識&翻訳できる機能など

                                      2024年6月11日2時からAppleが開催している年次開発者会議「WWDC24」の基調講演で、Apple Watch向けOSである「watchOS」の次期メジャーバージョンとなる「watchOS 11」が発表されました。 Appleのイベント - Apple(日本) https://www.apple.com/jp/apple-events/ watchOS 11が健康とフィットネスに関するパワフルな洞察を提供 - Apple (日本) https://www.apple.com/jp/newsroom/2024/06/watchos-11-brings-powerful-health-and-fitness-insights/ WWDC 2024 — June 10 | Apple - YouTube watchOS 11では新たに「トレーニングの負荷」が登場します。 「トレーニングの

                                        「watchOS 11」が登場、手首で手軽に音声認識&翻訳できる機能など
                                      • T5を使用してWhisperの音声認識誤り訂正を行う

                                        音声認識誤りとは音声認識において、未知語に対する認識結果が誤ることがあります。これを音声認識誤りと呼びます。特に、医療用語など専門的な用語が誤りやすい傾向にあります。 これまでの実験弊社では、これまで、WhisperのFine Tuningによる訂正と、Whisperの認識結果に対する誤り訂正辞書のアプローチで音声認識結果の訂正を行いました。しかし、Fine Tuningにはモデルが壊れやすく通常の認識結果の精度が低下するという課題があり、誤り訂正辞書には誤り方の揺らぎに弱いという課題がありました。

                                          T5を使用してWhisperの音声認識誤り訂正を行う
                                        • 音声認識モデルが大幅にアップデートされたReazonSpeech v2を使い、音声の文字起こしを試してみた | DevelopersIO

                                          音声認識モデルが大幅にアップデートされたReazonSpeech v2を使い、音声の文字起こしを試してみた はじめに 2024年2月14日に、ReazonSpeechの最新バージョン v2.0が公開されたため、ReazonSpeech音声認識モデルを利用してみました。 ReazonSpeechは、レアゾン・ヒューマンインタラクション研究所が開発した高精度な音声認識モデルを中心とするプロダクト群で、それぞれ以下のような特徴があります。(引用)いずれも無償で公開されています。 ReazonSpeech音声認識モデル: OpenAI Whisper に匹敵する高精度な日本語音声認識モデル。商用利用可 ReazonSpeechコーパス作成ツール: TV録画データ等から音声コーパスを自動抽出するソフトウェアツール。商用利用可 ReazonSpeech音声コーパス: 高品質な日本語音声認識モデル学習用

                                            音声認識モデルが大幅にアップデートされたReazonSpeech v2を使い、音声の文字起こしを試してみた | DevelopersIO
                                          • Web SpeechRecognition APIを使って、Web フロントで音声認識をする - KAYAC engineers' blog

                                            面白プロデュース事業部 フロントエンジニアのゆうもやです。 面白法人カヤックでは、毎月社員が個人で制作したものを発表する「つくっていいとも」という会があります。 カヤックの社員は、業務に関係なく自由に制作・試作することで常に新しいアイデアを生み出すことに取り組んでいます。 今回は、そんなアイデアのネタになりそうなWeb SpeechRecognition APIのご紹介です。 Web SpeechRecognition API とは? Web SpeechRecognition APIは、ブラウザで音声認識を行うためのAPIです。ブラウザに標準で実装されているため、サーバーや特別なライブラリをインストールする必要なく、JavaScriptだけで利用することができます。 対応状況 一部非対応のブラウザはあるものの、ChromeとSafari 14.1以降ではPCとモバイル両対応しているため、

                                              Web SpeechRecognition APIを使って、Web フロントで音声認識をする - KAYAC engineers' blog
                                            • rinna、日本語特化の基盤モデルを組み合わせた音声認識モデル「Nue ASR」を公開

                                                rinna、日本語特化の基盤モデルを組み合わせた音声認識モデル「Nue ASR」を公開 
                                              • Google翻訳を使って音声認識でブログ記事を書く方法なんだよ - チコちゃんに叱られないブログ

                                                ↑音読で楽しんでね 2023年12月13日 水曜日 2023年度 静吉チャンネル プレゼンツだよ😍 このブログでは音声認識で文章を作成する方法を何度か紹介した。 i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com 過去記事を貼り付けてみるとこれだけあった。 で、ブログ主が音声入力にこだわっているかというと、それはスマホが原因なのである。パソコンでブラインドタッチによる文章入力が出来るので、パソコンでブログを書いたりする場合は音声認識は必要ないのだ。 ツイッター事Xもパソコン版でなら何も問題はないけど、スマホでこれらSNSをしようとすると、ぼくの指先の太さと視力のア

                                                  Google翻訳を使って音声認識でブログ記事を書く方法なんだよ - チコちゃんに叱られないブログ
                                                • Demucs: 音楽制作から音声認識まで、幅広く使える音源分離ツール

                                                  Demucsは音楽制作から音声認識まで幅広く活躍する音源分離ツールです。 その技術は深層学習(ディープラーニング)に基づいています。 この記事ではDemucsの概要、インストール方法、基本的な使用法を紹介します。 音楽クリエイターや研究者にとって有益な情報が満載です。 本記事の内容 Demucsとは?DemucsのインストールDemucsの動作確認 それでは、上記に沿って解説していきます。 Demucsとは? Demucsは深層学習に基づく音楽ソース分離ツールです。 ボーカルや楽器のトラックを元の音楽ファイルから分離できます。 このツールはPythonで実装されており、PyTorchフレームワークを利用しています。 主な利用用途は、音楽制作やリミックスとなります。 加えて、教育目的でも用いられることがあります。 同じようなツールとして、SpleeterやOpen-Unmixが公開されていま

                                                    Demucs: 音楽制作から音声認識まで、幅広く使える音源分離ツール
                                                  • GitHub - AkariGroup/akari_chatgpt_bot: 音声認識、文章生成、音声合成を使って対話するチャットボットアプリ

                                                    submoduleの更新 git submodule update --init ライブラリのインストール sudo apt install python3.10 python3.10-venv portaudio19-dev gnome-terminal 仮想環境の作成 python3 -m venv venv . venv/bin/activate pip install -r requirements.txt (音声認識を使う場合) Cloud Speech-to-Text APIの有効化、秘密鍵ダウンロード Google cloud consoleに登録し、Cloud Speech-to-Text APIを有効化する。 認証用のjsonをダウンロードし、~/.bashrcにパスを記述 export GOOGLE_APPLICATION_CREDENTIALS=/home/xxx/x

                                                      GitHub - AkariGroup/akari_chatgpt_bot: 音声認識、文章生成、音声合成を使って対話するチャットボットアプリ
                                                    • 自動文字起こしアプリ・ソフトのおすすめ18選!音声認識とAIを使った文字起こしソフトをPC/スマホごとにご紹介! | リコー

                                                      RICOH Smart Support(スマートサポート) 「はたらく」をもっと快適に、リコーの複合機がお手伝いできること。

                                                        自動文字起こしアプリ・ソフトのおすすめ18選!音声認識とAIを使った文字起こしソフトをPC/スマホごとにご紹介! | リコー
                                                      • 「業界に隕石が落ちてきた」 生成AIが変える顧客対応と音声認識:朝日新聞デジタル

                                                        ","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 --><!--株価検索 中⑤企画-->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><!-- /news/esi/ichikiji/c6/default.htm -->","naka6Sp":"<!-- BFF3053 SP記事下(中⑥デジ編)パーツ=8826 -->","adcreative72":"<!-- BFF920 広告枠)ADCREATIVE-72 こんな特集も -->\n<!-- Ad BGN -->\n<!-- dfptag PC誘導枠5行 ★ここから -->\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">

                                                          「業界に隕石が落ちてきた」 生成AIが変える顧客対応と音声認識:朝日新聞デジタル
                                                        • 當真あみが早口言葉に挑戦!AI音声認識「AmiVoice」新CM

                                                          2023年放送のNHK大河ドラマ「どうする家康」をはじめ、ドラマや映画、CMなど活躍の場を広げている女優の當真あみがAI音声認識AmiVoice(アミボイス)の新CM「あみとアミボイス」篇と「これからのUI」篇に出演。2024年1月15日(月)より放映開始となる。 當真あみ「AmiVoice(アミボイス)」新CM 當真あみは今回のCMでAmiVoiceの魅力をアピールするため早口言葉に挑戦。発話した内容をテキスト化する音声認識技術を音声と映像で分かりやすく表現され、當真あみが話す早口言葉が、発話と同時にグラフィカルなテロップで表示される。 「あみとアミボイス」篇では、AmiVoiceを強く印象づけるため、當真あみの名前とAmiVoiceの“アミ”をリンク。今年、多くのメディアに登場しネクストブレイク候補の當真あみの名前と連動させることで、「AmiVoice」に対する今後の期待感の高まりを演

                                                            當真あみが早口言葉に挑戦!AI音声認識「AmiVoice」新CM
                                                          • rinna、大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を公開|rinna株式会社

                                                            大規模言語モデルの能力を活かすことで高精度な音声認識を実現 rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン"クリフ"チェン、以下rinna)は、大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を開発し、商用利用可能なライセンスで公開したことを発表します。 ■ rinnaのモデル公開活動 AI技術の進歩により、従来では困難であった処理もAIで実現可能となりつつあります。このような飛躍的な進展は、大量のデータから事前学習された基盤モデルを上手く活用することで達成されています。特にテキストを処理するための基盤モデルである大規模言語モデルGPTは、自然言語による人間とコンピュータのインターフェースを実現し多くのサービスで利用されるようになりました。テキストだけでなく画像や音声の処理においても、タスクに適した基盤モデルを活用することで、高い性能が達成できることが報告

                                                              rinna、大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を公開|rinna株式会社
                                                            • Windowsにおける音声認識など、ボイス機能を整理 (1/2)

                                                              Windowsには「Windows 音声認識」(Windows Speech Recognition、以下WSR)という機能が、Windows Vistaから標準で搭載されている。しかし、Windows 11 22H2からは英語に限り「Windows音声アクセス」(Windows Voice Access)が用意された。さらにこれとは別に、Windows 11には「Windows音声入力」(Voice Typing)という機能が導入されている。今回は、Windowsの「ボイス」関連機能を整理する。 Windows VistaからWindows 10までは「Windows音声認識」が、Windowsのボイス機能として使われていた。起動すると、画面上部に音声入力状態などを示すインジケーターが表示される そもそもボイス機能とは? 本記事では音声認識などの「音声」を「ボイス」と表記する。というのも

                                                                Windowsにおける音声認識など、ボイス機能を整理 (1/2)
                                                              • “音声認識バルスモード”搭載「飛行石」など「ラピュタ」グッズがどんぐり共和国にて10月28日再入荷!

                                                                  “音声認識バルスモード”搭載「飛行石」など「ラピュタ」グッズがどんぐり共和国にて10月28日再入荷!
                                                                • 「音声認識AIカオスマップ2024」を公開 合計161サービスの音声認識AIの製品・サービスを7用途に分類 - ロボスタ ロボスタ - ロボット情報WEBマガジン

                                                                  AIポータルメディア「AIsmiley」を運営するアイスマイリーは、各業界のDX推進の支援の一環として合計161サービスの音声認識AIの製品、サービスをまとめた「音声認識AIカオスマップ2024」を2024年2月6日に公開した。 カオスマップ作成の背景 近年、OpenAI社のChatGPTに追加された音声認識機能や、Google社が開発した、動画に入り込んだ周囲の雑音を軽減できる「音声消しゴムマジック」機能など、AIを活用した音声認識技術が、さまざまなサービスで注目を浴びている。 さらに、音声認識技術を活用した業務プロセスを効率化するサービスも増加している。会議などの音声を自動的にテキスト化し議事録を作成するサービスや、人間の声に限りなく寄せて文章を読み上げるサービスなど、個人の利用にとどまらず、企業が様々な分野で音声認識AIを業務に活用されている。 このような音声認識AIの進化は、企業に

                                                                    「音声認識AIカオスマップ2024」を公開 合計161サービスの音声認識AIの製品・サービスを7用途に分類 - ロボスタ ロボスタ - ロボット情報WEBマガジン
                                                                  • OpenAIの音声認識モデルWhisperを利用し、Mac上のすべてのテキストフィールドに音声入力を行えるディクテーション機能を実装した「MacWhisper v9.0」がリリース。

                                                                      OpenAIの音声認識モデルWhisperを利用し、Mac上のすべてのテキストフィールドに音声入力を行えるディクテーション機能を実装した「MacWhisper v9.0」がリリース。
                                                                    • NVIDIA、画像検索、音声認識機能などを追加したローカルAIチャットボットアプリ「ChatRTX」をリリース | XenoSpectrum

                                                                      NVIDIAは2月にNVIDIA GPUを使ってローカルでAIチャットボットを駆動させられる「Chat with RTX」のデモを公開したが、今回これをアップデートすると共に名称を改め、「ChatRTX」アプリとしてRTX GPUユーザー向けにリリースした。 新たな名称、新たな機能既にOpenAIのChatGPTや、GoogleのGeminiと言った強力なチャットボットが存在する中で、ChatRTXの意義について疑問を持たれるかも知れないが、ChatRTXはローカルシステム上で実行するように設計されているため、よりパーソナライズされた経験が期待出来る点にその優位性がある。 ChatRTXを実行するには8GB以上のVRAMを搭載したRTX 30シリーズまたは40シリーズのGPUが必要だ。このアプリは基本的に、ブラウザからアクセスできるローカルのチャットボット・サーバーを作成し、ローカルに保存

                                                                        NVIDIA、画像検索、音声認識機能などを追加したローカルAIチャットボットアプリ「ChatRTX」をリリース | XenoSpectrum
                                                                      • GoogleのGemini 1.5 Proに音声認識の新機能が!早く使ってみたい | ライフハッカー・ジャパン

                                                                        三井住友カード ゴールド(NL)のデメリットは?メリットない・いらないは勘違い【年会費無料になる100万円修行のコツ】

                                                                          GoogleのGemini 1.5 Proに音声認識の新機能が!早く使ってみたい | ライフハッカー・ジャパン
                                                                        • リアルタイム音声認識アプリYYProbe - アプリを使って会話を記録、保存、分析 | YYSystem(ワイワイシステム)

                                                                          YYSystemは、 主に障害のある方を対象に、声や音を見える化する独自のアルゴリズムをコアとして「意思疎通支援」を行うアプリケーションシリーズです。「いつでもどこでも、誰とでも会話ができる」「生活環境を可視化できる」ため、聴覚障害のある方がコミュニケーションで取り残されない、安心して暮らせる社会を実現します。

                                                                            リアルタイム音声認識アプリYYProbe - アプリを使って会話を記録、保存、分析 | YYSystem(ワイワイシステム)
                                                                          • Amazon Transcribe が音声基盤モデルに基づき 100 言語以上に対応する新しい音声認識システムを発表 | Amazon Web Services

                                                                            Amazon Web Services ブログ Amazon Transcribe が音声基盤モデルに基づき 100 言語以上に対応する新しい音声認識システムを発表 Amazon Transcribe は、アプリケーションに音声認識機能を簡単に追加できる、フルマネージドの自動音声認識 (Automatic Speech Recognition; ASR) サービスです。この度、数十億パラメータから構成される次世代の音声基盤モデルに基づいた、100 言語以上に対応する音声認識システムを発表できることを嬉しく思います。この記事では、このシステムのメリット、企業がそれをどのように活用しているか、そして利用開始方法を紹介します。また、本記事の下部には音声認識結果の例も記載しています。 Amazon Transcribe の音声基盤モデルは、自己教師あり (self-supervised) アルゴリ

                                                                              Amazon Transcribe が音声基盤モデルに基づき 100 言語以上に対応する新しい音声認識システムを発表 | Amazon Web Services
                                                                            • 【ChatGPT】TypeScript + Nuxt3 + Voice Activity Detection(VAD) + FastAPI + GPTで音声認識システムを作ってみる 1 | cloud.config Tech Blog

                                                                              【ChatGPT】TypeScript + Nuxt3 + Voice Activity Detection(VAD) + FastAPI + GPTで音声認識システムを作ってみる 1 AIの進化は止まらず、特に自然言語処理の領域ではその進化が顕著です。そんな中、OpenAIのChatGPTがそのパフォーマンスで注目を集めています。本記事では、Nuxtと組み合わせて音声認識を行い、ChatGPTとの会話を可能にする方法を解説します。 音声システムを作るための準備システムは以下の構成を考えています。 ユーザから音声の入力をWebAPIやVADを用いてフロント側で受け取り、Web socketをもちいて逐次音声をバックエンドに転送します。 バックエンドでは受け取った音声をAzureのSpeech to Textを用いてテキストに書き起こし、AzureのLanguage Under Standi

                                                                                【ChatGPT】TypeScript + Nuxt3 + Voice Activity Detection(VAD) + FastAPI + GPTで音声認識システムを作ってみる 1 | cloud.config Tech Blog
                                                                              • カンファレンスランク 2022年版(AI/機械学習/コンピュータビジョン/ロボティクス/自然言語処理/音声認識・合成領域 | ResearchPort [リサーチポート]

                                                                                本記事3行要約: ● 全体的にh5-index, h5-medianともに上昇傾向にある ● AI分野は2022年も変わらずホットトレンドだった ● 大きく躍進した会議はなく、ほぼ昨年同様のランキング結果となった 最新記事2023年版を公開いたしました(参照:カンファレンスランク 2023年版)*2023.12.13公開* 2021年末に公開して、大きな反響をいただいた「カンファレンスランク2021年版」。あれから1年が経過し、最先端技術の研究発表の場である学会はどうなっているか?ということで2022年を振り返る意味で改めて調査し、まとめました。 詳細は前回記事で述べているため、本記事ではコンパクトに昨年との差分をみてまいります。 ■ガートナー社によるハイプ・サイクル, 2022 ガートナー社が毎年公開するハイプ・サイクルが発表されて数ヶ月が立ちました。 新興技術版(図1)とAI版(図2)

                                                                                  カンファレンスランク 2022年版(AI/機械学習/コンピュータビジョン/ロボティクス/自然言語処理/音声認識・合成領域 | ResearchPort [リサーチポート]
                                                                                • Good Snooze、OpenAIの音声認識モデルWhisperを利用した文字起こしアプリMacWhisperのiOS版となる「Whisper Transcription for iOS」を近くリリース。

                                                                                  Good SnoozeがOpenAIの音声認識モデルWhisperを利用した文字起こしアプリMacWhisperのiOS版となる「Whisper Transcription for iOS」を近くリリースすると発表しています。詳細は以下から。 Apple Design Awards 2022のファイナリストに選出された文字書き起こし機能付きの音声通話アプリNaviなどを開発するGood SnoozeのJordi Bruinさんは現地時間2024年05月20日、OpenAIの音声認識モデルWhisperを利用した音声文字起こし(Speech to Text)アプリ「Whisper Transcription (Mac App Store版) / MacWhisper (Gumroad版)」のメジャーアップデートとなるバージョン8.0をリリースしましたが、 このWhisper Transcri

                                                                                    Good Snooze、OpenAIの音声認識モデルWhisperを利用した文字起こしアプリMacWhisperのiOS版となる「Whisper Transcription for iOS」を近くリリース。