並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 25 件 / 25件

新着順 人気順

音声認識の検索結果1 - 25 件 / 25件

  • 培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応

    人間の幹細胞を基に作られた脳オルガノイド(ミニ脳)を電子チップに接続した「ブレイノウェア」と呼ばれるセットアップを構築して、簡単な計算タスクを実行することに成功したことが、インディアナ大学ブルーミントン校のエンジニアであるフェン・グオ氏らの研究チームによって報告されました。 Brain organoid reservoir computing for artificial intelligence | Nature Electronics https://www.nature.com/articles/s41928-023-01069-w Scientists Built a Functional Computer With Human Brain Tissue : ScienceAlert https://www.sciencealert.com/scientists-built-a-f

      培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応
    • 生成AIと音声認識を組み合わせて会議アシスタントツールを作ったら生産性が大幅に向上した話

      株式会社クラウドネイティブは、Azure OpenAIで自組織専用のChatGPTの構築を支援するサービスを展開しています。ChatGPTとAzure AD OpenAI Serviceの取り組みや事例、支援… IDチームの前田です。今日は生成AI(ChatGPT)と音声認識モデル(Whisper)を利用した会議アシスタントツールに関する投稿になります。 (追記) 作ったツールはGitHub上で公開しており、Dockerを利用してすぐに試せるようになってます。 https://github.com/cloudnative-co/mtg-ai-assistant 2023年8月30日現在Azure OpenAIにてWhisperが利用出来ていないため、OpenAI Whisper APIを利用した試験段階のものになります。近日中にAzure OpenAIにてWhisperが利用出来るとアナウ

        生成AIと音声認識を組み合わせて会議アシスタントツールを作ったら生産性が大幅に向上した話
      • 人間の脳細胞を電極の上に置いてつくった人工知能。日本語の音声認識を実現【研究紹介】

        人間の脳細胞を電極の上に置いてつくった人工知能。日本語の音声認識を実現【研究紹介】 2023年12月13日 米Indiana University Bloomingtonなどに所属する研究者らが発表した論文「Brain organoid reservoir computing for artificial intelligence」は、人間の脳細胞を用いて基本的な音声認識を行うAIシステムを提案した研究報告である。 このシステムは、生きている脳細胞の塊、すなわち脳オルガノイドを利用している。脳オルガノイドは、幹細胞を特定の条件下で育成することによって人工的に作られる、数ミリメートルの神経細胞の塊(ミニ脳組織)である。この脳オルガノイドは、最大で1億の神経細胞を含んでおり、計算に使用される。この脳オルガノイドは、成熟したニューロン、アストロサイト、神経前駆細胞など、さまざまな脳細胞のアイデン

          人間の脳細胞を電極の上に置いてつくった人工知能。日本語の音声認識を実現【研究紹介】
        • 培養脳でコンピューター 神経細胞で音声認識に成功、米インディアナ大学 - 日本経済新聞

          米インディアナ大学ブルーミントン校などは、人の幹細胞から作った神経細胞を集積した「培養脳」を用いて簡易なコンピューターを開発した。従来のコンピューターより少ない電力で計算できると期待される。実用化できれば、電力消費の拡大に対応する手段の一つとなる。人工知能(AI)の普及などデジタル化の急速な進展は電力の大量消費を伴う。例えば、米オープンAIの大規模言語モデル「GPT-3」が学習に必要な電力量は

            培養脳でコンピューター 神経細胞で音声認識に成功、米インディアナ大学 - 日本経済新聞
          • ヒトの脳組織を培養した「ミニ脳」でコンピューターの構築に成功。日本語音声認識や数学理論を理解 : カラパイア

            米国インディアナ大学ブルーミントン校の研究チームが開発したバイオコンピューターは、培養した人間の脳組織が組み込まれた文字通り”生きたコンピューター”だ。 どんなコンピューターにも敵わない人間の脳のパワーの秘密は、ニューロン(神経細胞)がプロセッサーとメモリの両方の役割を果たすことで生まれる効率性にある。 人間の幹細胞から培養した脳オルガノイド(生体外で3次元的に作られたミニ脳)を搭載した「Brainoware」は、コンピューターを脳に近づけようという試みをさらに一歩進めたもので、人間の音声を認識したり、カオスのような非線型方程式を予測したりすることに成功している。

              ヒトの脳組織を培養した「ミニ脳」でコンピューターの構築に成功。日本語音声認識や数学理論を理解 : カラパイア
            • スマート音声リモコン、音声認識エンジンのライセンス切れでサービス提供終了を予告【やじうまWatch】

                スマート音声リモコン、音声認識エンジンのライセンス切れでサービス提供終了を予告【やじうまWatch】
              • 脳オルガノイドをコンピューターに接続、日本語の音声認識に成功

                ヒト「脳オルガノイド」をコンピューター・チップに接続し、単純な計算タスクを実行できるシステムが開発された。新しいバイオ・コンピューターの可能性を示している。 by Abdullahi Tsanni2023.12.12 24 10 米研究チームが、シャーレの中で培養されたヒトの脳細胞の塊である「脳オルガノイド」を電子チップに接続し、簡単な計算タスクを実行することに成功。新たな研究成果として発表した。 発表したのは、インディアナ大学ブルーミントン校のフェン・グオ准教授らの研究チーム。幹細胞から作製した脳オルガノイドをコンピューター・チップに取り付けた「ブレイノウェア(Brainoware)」と呼ばれるセットアップを構築。人工知能(AI)ツールに接続した。研究チームは、このハイブリッド・システムが、情報を処理、学習、記憶できることを明らかにした。初歩的な音声認識の実行にも成功したという。12月1

                  脳オルガノイドをコンピューターに接続、日本語の音声認識に成功
                • Amazonが音声認識アシスタントAlexaに生成AIを導入、複雑なリクエストを処理可能に

                  現地時間2023年9月20日にバージニア州アーリントンにあるAmazonの第2本社で開催された発表会において、Amazonが音声認識アシスタント・Alexaに生成AIを導入し、スマートスピーカー・Echoファミリー全体のエクスペリエンスを向上させることを発表しました。 Amazon previews the future of Alexa with generative AI https://www.aboutamazon.com/news/devices/amazon-alexa-generative-ai AmazonはAlexaを2014年に発表して以来、「Alexaとの会話を、他の人と話すのと同じぐらい自然にすること」を目指して継続的な改善を続けてきました。生成AIの急速な進化により、目標はもはや手の届くところまで来ているとのこと。 Amazonでは、Alexaとの会話を自然なもの

                    Amazonが音声認識アシスタントAlexaに生成AIを導入、複雑なリクエストを処理可能に
                  • GoogleのAI「Gemin 1.5 Pro」が180カ国で利用可能に。音声認識も対応

                      GoogleのAI「Gemin 1.5 Pro」が180カ国で利用可能に。音声認識も対応
                    • Google Cloud上でGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみた | DevelopersIO

                      こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。 この記事は、ブログリレー『Google CloudのAI/MLとかなんとか』の3本目の記事になります。 今回は、Vertex AIからGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみたいと思います。 Chirpについて 以下に詳しい説明があります。 Chirp: Universal speech model  |  Cloud Speech-to-Text V2 documentation  |  Google Cloud ChirpはGoogleの次世代音声認識モデルで、現在の音声モデルとは異なるアーキテクチャで学習させたモデルとなっているようです。 Google CloudではCloud Speech-to-Text V2における一つのモデルとして使用できます。その他

                        Google Cloud上でGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみた | DevelopersIO
                      • Amazonが70億円超の支払いを音声認識アシスタント「Alexa」による特許侵害で命じられる

                        Amazonのスマートスピーカーである「Echo」と、これに搭載されている音声認識アシスタントの「Alexa」が、4件の特許を侵害しているとして4670万ドル(約70億円)の支払いを命じられました。 Alexa just cost Amazon another $46.7 million | Ars Technica https://arstechnica.com/gadgets/2023/11/alexa-just-cost-amazon-another-46-7-million/ Nuance Communications傘下のVB Assets(旧VoiceBox Technologies)が、AmazonのEchoおよびAlexaが同社の保有する特許を侵害したとして、デラウェア州連邦裁判所で特許侵害訴訟を起こしました。訴訟の中で、VB Assetsは「インターネットに接続して女性の

                          Amazonが70億円超の支払いを音声認識アシスタント「Alexa」による特許侵害で命じられる
                        • iOS/macOSオンデバイスで爆速で動作する音声認識モデルWhisperKit - Sansan Tech Blog

                          iOSエンジニアの堤です。先日3月28日に開催された弊社主催のLTイベントで、「WhisperKitがだいぶ良いので紹介する」というタイトルで発表しました。 スライドはこちら: www.docswell.com 本記事は、同発表をベースとしつつ、(LTでは時間が足りないので)発表ではカットした内容を盛り込んで記事として再構成したものになります。 WhisperKitとは iOS/macOSオンデバイスで動く音声認識のすごいやつ デモ:標準の音声認識フレームワークSpeechとの比較 Speech WhisperKit なぜ速いのか - WhisperKitの系譜 OpenAI Whisper whisper.cpp Core ML とは whisper.cpp から WhisperKitへ argmax社とApple モデルサイズとメモリ消費量 各モデルのファイルサイズ一覧 メモリ使用量

                            iOS/macOSオンデバイスで爆速で動作する音声認識モデルWhisperKit - Sansan Tech Blog
                          • [みんなのケータイ]音声認識の精度は音響と取り込むマイクに左右されると思う日々

                              [みんなのケータイ]音声認識の精度は音響と取り込むマイクに左右されると思う日々
                            • 日本語音声認識に特化したWhisperである kotoba-whisper-v1.0を早速試してみた | DevelopersIO

                              はじめに 昨日公開された日本語音声認識に特化した「Kotoba-Whisper」のkotoba-whisper-v1.0を試してみました。 本モデルは、OpenAIの「Whisper large-v3」を教師モデルとして使用し、蒸留(大規模な学習モデルから、同機能を持つより小さなモデルを開発する手法)を用いて開発されました。 kotoba-whisper-v1.0は、ReazonSpeechコーパスの一部である日本語音声と文字起こしのペアデータセットを使用して学習されたモデルです。学習データには、日本のテレビ番組の音声と、文字起こしたものが含まれています。具体的には、1,253時間の音声データと16,861,235文字の文字起こしデータが使用されています。 本モデルは、Pythonのライブラリであるtransformersに対応しており、短時間の音声ファイルの文字起こしから、長時間の音声フ

                                日本語音声認識に特化したWhisperである kotoba-whisper-v1.0を早速試してみた | DevelopersIO
                              • 「車特化型ソフトウェアプラットフォーム」や「次世代音声認識」の開発も担う コネクテッド先行開発部における、IVIソフトウェア開発

                                トヨタ自動車株式会社が主催となって行うプログラミングコンテスト「TOYOTA Programming Contest 2023 Summer」。トークセッション「ソフトウェア開発事例の紹介」で登壇したのは、トヨタ自動車株式会社 コネクテッド先行開発部の鈴木真一氏。In-Vehicle Infotainment systemの開発について発表しました。 登壇者の自己紹介 高橋直大氏(以下、高橋):大手町オフィスにあるコネクテッド先行開発部から、鈴木真一さまにお越しいただきました。よろしくお願いいたします。 鈴木真一氏(以下、鈴木):よろしくお願いします。 前段いろいろとお話しさせていただいていましたが、ソフトウェアの開発事例紹介ということで、In-Vehicle Infotainment systemの開発について紹介させていただきたいと思います。 あらためまして、トヨタ自動車コネクテッド先

                                  「車特化型ソフトウェアプラットフォーム」や「次世代音声認識」の開発も担う コネクテッド先行開発部における、IVIソフトウェア開発
                                • NVIDIAが音声認識追加や画像検索改善を行ったAIチャットボット「ChatRTX」を公開

                                  NVIDIAが、AIチャットボット「ChatRTX」でサポートするLLMを追加して画像検索機能の改善や音声認識機能の追加を行ったことを発表しました。 Build a Custom LLM with ChatRTX | NVIDIA https://www.nvidia.com/en-us/ai-on-rtx/chatrtx/ ChatRTX Adds New AI Models and Features | NVIDIA Blog https://blogs.nvidia.com/blog/ai-decoded-chatrtx-update/ Nvidia’s AI chatbot now supports Google’s Gemma model, voice queries, and more - The Verge https://www.theverge.com/2024/5/1/

                                    NVIDIAが音声認識追加や画像検索改善を行ったAIチャットボット「ChatRTX」を公開
                                  • Googleを上回る音声認識精度ですべての「商談」を文字起こし 海外ピッチの優勝回数2桁超のベンチャーが見る、AI API市場の魅力

                                    「IVS2023 KYOTO」内にて、次世代の起業家の登竜門とも言われる日本最大級のスタートアップピッチコンテスト「IVS LAUNCHPAD」が開催されました。本記事では、海外のピッチコンテストで10度以上優勝を経験しているPoeticsの山崎はずむ氏による、セールステックからより大きなAI API市場への展開ついての6分間のプレゼンテーションをお届けします。 「なぜ失注したのか」が見えない、営業のブラックボックス化 山崎はずむ氏(以下、山崎):はじめまして、Poeticsの山崎と申します。我々は電話・オンライン商談を解析するAI「JamRoll」を提供しています。 JamRollが解決する課題は、営業のブラックボックス化問題。成約・失注といった結果はSalesforceを見ればわかりますが、「なぜ失注したのか」というプロセスが見えないと改善策を打ち出せません。 一方で、成約や失注の原因

                                      Googleを上回る音声認識精度ですべての「商談」を文字起こし 海外ピッチの優勝回数2桁超のベンチャーが見る、AI API市場の魅力
                                    • 記者に特化した音声認識モデル(Whisper)を作った話|朝日新聞社 メディア研究開発センター

                                      こんにちは、メディア研究開発センターの山野陽祐です。 先日、朝日新聞の記者に特化したWhisper (音声認識モデル)を構築し、3月末から社内向けツール「YOLO」にて運用を開始しました。それに至るまでの道のりをこちらの記事でご紹介します。 なお、学習データとして活用するファイルは、社内会議や公の記者会見とし、個人情報やセンシティブな情報が含まれるファイルは使用しておりません。 データ「YOLO」は音声や動画の文字起こしをする社内向けのサービスで、約2年前にリリースしました。この間にアップロードされた音声ファイルや動画ファイルは数千時間におよび、そのうち学習に使えるデータも多くあります。 ここでは、YOLOで蓄積されたデータを紹介し、続いて学習データや評価データについても述べます。 YOLOデータアップロード時、ユーザーにファイルの"ジャンル"を指定してもらうようなサービス設計をしています

                                        記者に特化した音声認識モデル(Whisper)を作った話|朝日新聞社 メディア研究開発センター
                                      • 「watchOS 11」が登場、手首で手軽に音声認識&翻訳できる機能など

                                        2024年6月11日2時からAppleが開催している年次開発者会議「WWDC24」の基調講演で、Apple Watch向けOSである「watchOS」の次期メジャーバージョンとなる「watchOS 11」が発表されました。 Appleのイベント - Apple(日本) https://www.apple.com/jp/apple-events/ watchOS 11が健康とフィットネスに関するパワフルな洞察を提供 - Apple (日本) https://www.apple.com/jp/newsroom/2024/06/watchos-11-brings-powerful-health-and-fitness-insights/ WWDC 2024 — June 10 | Apple - YouTube watchOS 11では新たに「トレーニングの負荷」が登場します。 「トレーニングの

                                          「watchOS 11」が登場、手首で手軽に音声認識&翻訳できる機能など
                                        • T5を使用してWhisperの音声認識誤り訂正を行う

                                          音声認識誤りとは音声認識において、未知語に対する認識結果が誤ることがあります。これを音声認識誤りと呼びます。特に、医療用語など専門的な用語が誤りやすい傾向にあります。 これまでの実験弊社では、これまで、WhisperのFine Tuningによる訂正と、Whisperの認識結果に対する誤り訂正辞書のアプローチで音声認識結果の訂正を行いました。しかし、Fine Tuningにはモデルが壊れやすく通常の認識結果の精度が低下するという課題があり、誤り訂正辞書には誤り方の揺らぎに弱いという課題がありました。

                                            T5を使用してWhisperの音声認識誤り訂正を行う
                                          • 音声認識モデルが大幅にアップデートされたReazonSpeech v2を使い、音声の文字起こしを試してみた | DevelopersIO

                                            音声認識モデルが大幅にアップデートされたReazonSpeech v2を使い、音声の文字起こしを試してみた はじめに 2024年2月14日に、ReazonSpeechの最新バージョン v2.0が公開されたため、ReazonSpeech音声認識モデルを利用してみました。 ReazonSpeechは、レアゾン・ヒューマンインタラクション研究所が開発した高精度な音声認識モデルを中心とするプロダクト群で、それぞれ以下のような特徴があります。(引用)いずれも無償で公開されています。 ReazonSpeech音声認識モデル: OpenAI Whisper に匹敵する高精度な日本語音声認識モデル。商用利用可 ReazonSpeechコーパス作成ツール: TV録画データ等から音声コーパスを自動抽出するソフトウェアツール。商用利用可 ReazonSpeech音声コーパス: 高品質な日本語音声認識モデル学習用

                                              音声認識モデルが大幅にアップデートされたReazonSpeech v2を使い、音声の文字起こしを試してみた | DevelopersIO
                                            • Web SpeechRecognition APIを使って、Web フロントで音声認識をする - KAYAC engineers' blog

                                              面白プロデュース事業部 フロントエンジニアのゆうもやです。 面白法人カヤックでは、毎月社員が個人で制作したものを発表する「つくっていいとも」という会があります。 カヤックの社員は、業務に関係なく自由に制作・試作することで常に新しいアイデアを生み出すことに取り組んでいます。 今回は、そんなアイデアのネタになりそうなWeb SpeechRecognition APIのご紹介です。 Web SpeechRecognition API とは? Web SpeechRecognition APIは、ブラウザで音声認識を行うためのAPIです。ブラウザに標準で実装されているため、サーバーや特別なライブラリをインストールする必要なく、JavaScriptだけで利用することができます。 対応状況 一部非対応のブラウザはあるものの、ChromeとSafari 14.1以降ではPCとモバイル両対応しているため、

                                                Web SpeechRecognition APIを使って、Web フロントで音声認識をする - KAYAC engineers' blog
                                              • rinna、日本語特化の基盤モデルを組み合わせた音声認識モデル「Nue ASR」を公開

                                                  rinna、日本語特化の基盤モデルを組み合わせた音声認識モデル「Nue ASR」を公開 
                                                • 開発実績25年・日本シェアNo1の音声認識サービス「AmiVoice」の実力はどれほどなのか?実際に使ってみた&GIGAZINE読者専用無料期間10倍クーポンあり

                                                  会議や電話の音声を文字起こししたり、音声認識で機械を操作したり、音声入力でレポートを作成したりとさまざまな場面で「音声認識サービス」が必要とされています。そうした需要に応えて世の中には多数の音声認識サービスが登場していますが、そのうちの一つ「AmiVoice」は「えー」「えっと」などの言いよどみを自動削除してくれたり、単語登録で固有名詞も楽々対応だったり、医療や金融などの専門分野に強い特化型エンジンが用意されていたりする日本シェアNo1の音声認識サービスとのことなので、実際に使って確かめてみました。 AI音声認識のAPI・SDKなら-AmiVoice Cloud Platform(アミボイス) https://acp.amivoice.com/ AmiVoice API-開発者向け音声認識エンジン(アミボイス) https://acp.amivoice.com/amivoice_api/

                                                    開発実績25年・日本シェアNo1の音声認識サービス「AmiVoice」の実力はどれほどなのか?実際に使ってみた&GIGAZINE読者専用無料期間10倍クーポンあり
                                                  • Google翻訳を使って音声認識でブログ記事を書く方法なんだよ - チコちゃんに叱られないブログ

                                                    ↑音読で楽しんでね 2023年12月13日 水曜日 2023年度 静吉チャンネル プレゼンツだよ😍 このブログでは音声認識で文章を作成する方法を何度か紹介した。 i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com i-shizukichi.hatenablog.com 過去記事を貼り付けてみるとこれだけあった。 で、ブログ主が音声入力にこだわっているかというと、それはスマホが原因なのである。パソコンでブラインドタッチによる文章入力が出来るので、パソコンでブログを書いたりする場合は音声認識は必要ないのだ。 ツイッター事Xもパソコン版でなら何も問題はないけど、スマホでこれらSNSをしようとすると、ぼくの指先の太さと視力のア

                                                      Google翻訳を使って音声認識でブログ記事を書く方法なんだよ - チコちゃんに叱られないブログ
                                                    1