並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 269件

新着順 人気順

音声認識の検索結果81 - 120 件 / 269件

  • iOS/macOSオンデバイスで爆速で動作する音声認識モデルWhisperKit - Sansan Tech Blog

    iOSエンジニアの堤です。先日3月28日に開催された弊社主催のLTイベントで、「WhisperKitがだいぶ良いので紹介する」というタイトルで発表しました。 スライドはこちら: www.docswell.com 本記事は、同発表をベースとしつつ、(LTでは時間が足りないので)発表ではカットした内容を盛り込んで記事として再構成したものになります。 WhisperKitとは iOS/macOSオンデバイスで動く音声認識のすごいやつ デモ:標準の音声認識フレームワークSpeechとの比較 Speech WhisperKit なぜ速いのか - WhisperKitの系譜 OpenAI Whisper whisper.cpp Core ML とは whisper.cpp から WhisperKitへ argmax社とApple モデルサイズとメモリ消費量 各モデルのファイルサイズ一覧 メモリ使用量

      iOS/macOSオンデバイスで爆速で動作する音声認識モデルWhisperKit - Sansan Tech Blog
    • [速報] 医療に特化した音声認識の新サービス Amazon Transcribe Medical が発表されました #reinvent | DevelopersIO

      こんにちは、菊池です。 re:Invent 2019、はじまりました!たった今開催されているMidnight Madnessの裏で、新しいサービスAmazon Transcribe Medicalが発表されました。 Amazon Transcribe Medical – Real-Time Automatic Speech Recognition for Healthcare Customers AWS announces Amazon Transcribe Medical - Medical Speech Recognition Amazon Transcribe Medical Amazon Transcribe Medical は医療情報に特化した音声認識サービスです。現在、医師の多くが、臨床情報のレポートの作成に多大な時間を費やしているという課題をサポートできます。 その特徴として

        [速報] 医療に特化した音声認識の新サービス Amazon Transcribe Medical が発表されました #reinvent | DevelopersIO
      • グーグル担当者が明かす、「Pixel 4」の音声認識の実力

        米グーグル(Google)は、2019年10月に発売したスマートフォン「Pixel」シリーズの最新機種「Pixel 4」に、さまざまな新機能を搭載した(関連記事)。この中で、「仕事に役立つ」と報道関係者やビジネスパーソンなどから注目を集めた機能が、新しい音声レコーダーアプリである。現状で対応するのは英語だけにとどまるものの、クラウドに接続することなく、Pixel 4内部、いわゆる「on device(オンデバイス)」ながら、高い精度で音声を認識し、それをほぼリアルタイムで文字に起こせることを特徴にする。この新アプリの基になった音声認識技術の実力や今後の展開などについて、グーグルの担当者であるSagar Savla氏が報道機関に向けて語った。

          グーグル担当者が明かす、「Pixel 4」の音声認識の実力
        • OpenAIの音声認識モデル Whisperの解説 / Fine Tuning 方法

          OpenAIから、かなりすごい音声認識モデル Whisperが発表されました。特出すべき点は、教師付き音声68万時間という、かなりヤバめのデータ量で訓練しており、英語では商用の音声認識システムや人間の書き起こしに匹敵する性能とのことです。 社内でも日本語、ブルガリア語、韓国語で試してみましたが、すごい精度でした。日本語の場合、漢字の間違いが多々ありましたが、発音は大体あってそうでした。ブルガリア語は、ロシア語で認識されていました。韓国語は、完璧でした。 しかし、Githubに公開されたコードを見てみると、訓練コードが含まれておらず、公開の予定もないそうです。そこで、本記事では、Whisperの解説に加えて、Fine Tuningの方法を解説します。 ※ Fine Tungingを何となくで作成しているので、正確なコードではないです。気付いた点がありましたら、コメントください。 全てのコード

            OpenAIの音声認識モデル Whisperの解説 / Fine Tuning 方法
          • 独自プロセッサ×音声認識が“文字起こし”に革命を? 「Pixel 6 Pro」全力レビュー(後編)

            独自プロセッサ×音声認識が“文字起こし”に革命を? 「Pixel 6 Pro」全力レビュー(後編)(1/3 ページ) Googleは10月28日、フラグシップスマートフォン「Pixel 6シリーズ」を発売する。Google Store(Web直販)における税込み販売価格は、「Pixel 6」は7万4800円から、「Pixel 6 Pro」は11万6600円からとなっている。 →Googleの新スマホ「Pixel 6」「Pixel 6 Pro」正式発表 10月28日発売 直販価格は7万4800円から 今回、シリーズの上位モデルであるPixel 6 Proを一足早く試す機会を得た。1週間ほど試用した上での感触を2回に分けて紹介する。後編では、独自プロセッサ「Google Tensor」のパワーを体感しやすい音声認識関連の機能をチェックしつつ、“Androidスマホ”としてのPixel 6 Pr

              独自プロセッサ×音声認識が“文字起こし”に革命を? 「Pixel 6 Pro」全力レビュー(後編)
            • 私の「耳」は音声認識アプリ 元「筆談ホステス」の都議、議会変えた:朝日新聞デジタル

              ","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 -->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><!-- /news/esi/ichikiji/c6/default.htm -->","naka6Sp":"<!-- BFF3053 SP記事下(中⑥デジ編)パーツ=8826 -->","adcreative72":"<!-- BFF920 広告枠)ADCREATIVE-72 こんな特集も -->\n<!-- Ad BGN -->\n<!-- dfptag PC誘導枠5行 ★ここから -->\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"

                私の「耳」は音声認識アプリ 元「筆談ホステス」の都議、議会変えた:朝日新聞デジタル
              • AI音声認識APIを提供する開発プラットフォームを一般公開

                アドバンスト・メディアは2019年12月3日、音声認識APIを提供する開発プラットフォーム「AmiVoice Cloud Platform(アミボイス・クラウド・プラットフォーム)」の一般公開を開始した。第1弾として汎用エンジンを公開、リアルタイム版とバッチ版のAI(人工知能)音声認識APIをラインアップしている。 AmiVoiceは、日本語に強い音声認識エンジンで、最新の深層学習技術を実装。今回、APIとして提供することで、音声文字化や音声対話、音声制御、音声翻訳などを行うアプリケーションやWebサイトといったサービスに音声認識APIを簡単に組み込めるようになる。 リアルタイム認識(WebSocket対応API)とバッチ認識(HTTP対応API)を用意。リアルタイム認識は、HTML5でマイク音声が取得可能なWebブラウザなどで、サーバ型リアルタイム処理ができる。バッチ認識は、音声を一括処

                  AI音声認識APIを提供する開発プラットフォームを一般公開
                • グダグダ会議をAI・音声認識で撲滅すべく、議事録クラウドサービス「AmiVoice SMM」に大幅な機能追加

                    グダグダ会議をAI・音声認識で撲滅すべく、議事録クラウドサービス「AmiVoice SMM」に大幅な機能追加 
                  • ブログ100記事達成 音声認識を使って文章を書くコツとアプリの利用 - トル猫 FX

                    目標であったブログ記事100記事を達成しました! まさか自分がここまで続けることが出来るなんて思ってもいなかったので達成感に満ちています! ブログを100記事書いたぐらいで満足するなよ!と言われそうですが、今年PCを購入してからここまで続けられたことが嬉しいのです!自己満足に浸るトル猫です! 今回はブログ100記事達成したという事で、今後の目標などを改めて設定していきたいと思います! 目次 ブログ100記事達成 文章を書くコツ 音声認識での文章作成 それでも難しい場合 今後の行動目標 セミリタイアという夢 最後に ブログ100記事達成 始めにブログ100記事を達成した感想はというと 最高です! 達成感半端ないっす!笑 例えるならフルマラソン完走くらいの達成感がありました!(走ったことないけど) とにかく嬉しかったですね!(^-^)v まさかPC初心者の私が、ブログ100記事を達成できるなん

                      ブログ100記事達成 音声認識を使って文章を書くコツとアプリの利用 - トル猫 FX
                    • 1100以上の言語で音声からの文字起こしや文章の読み上げが可能な音声認識モデル「Massively Multilingual Speech(MMS)」をMetaが発表

                      AI開発に注力しているMetaが、1100以上の言語で音声からの文字起こしや文章の読み上げが可能な音声認識モデル「Massively Multilingual Speech(MMS)」を発表しました。MMSは従来の大規模多言語音声認識モデルを大幅に上回る言語に対応しており、話者の少ない言語でもさまざまな情報にアクセスしやすくなると期待されています。 Today we're sharing new progress on our AI speech work. Our Massively Multilingual Speech (MMS) project has now scaled speech-to-text & text-to-speech to support over 1,100 languages — a 10x increase from previous work. Deta

                        1100以上の言語で音声からの文字起こしや文章の読み上げが可能な音声認識モデル「Massively Multilingual Speech(MMS)」をMetaが発表
                      • 鈴木一平 on Twitter: "音声認識からWebカメラ映像への字幕合成までをGoogle Chrome だけでやってくれるWebページをつくってみました! #xDiversity ブラウザを画面共有 or OBS等でキャプチャーすればビデオ会議に字幕付きで参… https://t.co/lWMmS8h3Om"

                        音声認識からWebカメラ映像への字幕合成までをGoogle Chrome だけでやってくれるWebページをつくってみました! #xDiversity ブラウザを画面共有 or OBS等でキャプチャーすればビデオ会議に字幕付きで参… https://t.co/lWMmS8h3Om

                          鈴木一平 on Twitter: "音声認識からWebカメラ映像への字幕合成までをGoogle Chrome だけでやってくれるWebページをつくってみました! #xDiversity ブラウザを画面共有 or OBS等でキャプチャーすればビデオ会議に字幕付きで参… https://t.co/lWMmS8h3Om"
                        • Microsoft、音声認識のNuanceを262億ドル(約2兆円)で買収すると正式発表

                          米Microsoftは4月12日(現地時間)、米音声認識大手のNuance Communicationsを買収することで合意に達したと発表した。買収総額は197億ドル(約2兆1551億円)で、MicrosoftとしてはLinkedInの262億ドルでの買収に次ぐ大規模買収だ。取引は年内に完了の見込み。 NuanceはMicrosoftの独立子会社として存続し、マーク・ベンジャミンCEOはクラウド&AI担当エグゼクティブバイスプレジデントであるスコット・ガスリー氏直属になる。 Nuance Communicationsは1992年創業のマサチューセッツ州バーリントンに拠点を置く上場企業。米Appleの音声アシスタント「Siri」の基になる技術を提供したことで知られる。モバイル端末や車載システム向けの音声認識技術「Dragon」シリーズ、OCR技術、モバイル向け入力システム「Swype」などを

                            Microsoft、音声認識のNuanceを262億ドル(約2兆円)で買収すると正式発表
                          • [みんなのケータイ]音声認識の精度は音響と取り込むマイクに左右されると思う日々

                              [みんなのケータイ]音声認識の精度は音響と取り込むマイクに左右されると思う日々
                            • 日本語ならではのアクセシビリティ 点字、ロービジョンユーザー向けノート、音声認識技術、UD書体

                              青木秀仁Shamrock Records株式会社 代表取締役/一般社団法人Code for Nerima 代表理事/イベントスペースNerima Base 管理人 こんにちは。デザイナー/ディレクターの佐野です。 海外では、アクセシビリティに関連するさまざまなカンファレンスが開催されています。私たちも毎年海外カンファレンスに参加し、トレンドを吸収・発信してきました。 アクセシビリティの動向について海外と日本を比較する際、どうしても法規制の有無が挙げられがちです。しかし「日本語」のもつ特徴に目を向けてみると、日本ならではの強みや海外との共通点が見えてきました。 今回は『日本語ならではのアクセシビリティ』という観点から、点字、ロービジョンユーザー向けノート、音声認識技術、UD書体についてご紹介します。 サイボウズ株式会社 プログラマーの小林大輔氏、Cocktailz 代表の伊敷政英氏、シャムロ

                                日本語ならではのアクセシビリティ 点字、ロービジョンユーザー向けノート、音声認識技術、UD書体
                              • 「応答速度」「演算量の多さ」「カスタマイズの難しさ」 End-to-End音声認識のプロダクト化でハードルになる3つの課題

                                東京における音声・音響・信号処理に関するエンジニア・研究者のためのミートアップ「Tokyo BISH Bash」。第3回は、世界中で音響に関する普及・啓蒙を目的として国際音響学会が提唱するイベント「International Year of Sound 2020(IYS2020)」と協力し、日本音響学会電気音響研究会との共催で開催されました。 そこでLINEのSpeech Teamにいる木田祐介氏が、LINEで開発されている音声認識のプロダクトについてそのしくみとプロダクト化への歩みについて紹介しました。後半はEnd-to-End音声認識をプロダクト化するにあたっての課題について。関連資料はこちら。 応答速度が遅い理由 次にプロダクト化に向けての課題と取り組みについて話します。こちらは、僕が考えるプロダクト化の阻害要因を挙げています。1つが応答速度が遅い、1つが演算量が多い、1つはカスタマ

                                  「応答速度」「演算量の多さ」「カスタマイズの難しさ」 End-to-End音声認識のプロダクト化でハードルになる3つの課題
                                • Pythonで学ぶ音声認識 機械学習実践シリーズ - インプレスブックス

                                  3,850円(本体 3,500円+税10%) 品種名書籍 発売日2021/5/20 ページ数352 サイズB5変形判 著者 高島遼一 著 ISBN 9784295011385 「音声認識」とは音声信号から発話内容を認識することで、AIスピーカなどに利用されている技術です。本書は、音声認識技術の発展経緯を学びながら、深層学習を用いた最新の音声認識システムを実装できるまでを目的とし、手法の目的やアルゴリズムの概要を解説、続いて数式レベルでの詳説、最後にソースコード付きで実装という流れで解説しています。特に手法の概要については「その手法は何を目的として生み出されたのか」という経緯と「なぜその手法は前述の目的を達成できるのか」について直感的に理解できるよう工夫しています。 目次を見る

                                    Pythonで学ぶ音声認識 機械学習実践シリーズ - インプレスブックス
                                  • 日本語音声認識に特化したWhisperである kotoba-whisper-v1.0を早速試してみた | DevelopersIO

                                    はじめに 昨日公開された日本語音声認識に特化した「Kotoba-Whisper」のkotoba-whisper-v1.0を試してみました。 本モデルは、OpenAIの「Whisper large-v3」を教師モデルとして使用し、蒸留(大規模な学習モデルから、同機能を持つより小さなモデルを開発する手法)を用いて開発されました。 kotoba-whisper-v1.0は、ReazonSpeechコーパスの一部である日本語音声と文字起こしのペアデータセットを使用して学習されたモデルです。学習データには、日本のテレビ番組の音声と、文字起こしたものが含まれています。具体的には、1,253時間の音声データと16,861,235文字の文字起こしデータが使用されています。 本モデルは、Pythonのライブラリであるtransformersに対応しており、短時間の音声ファイルの文字起こしから、長時間の音声フ

                                      日本語音声認識に特化したWhisperである kotoba-whisper-v1.0を早速試してみた | DevelopersIO
                                    • 日本語の音声認識はなぜ難しい? 精度向上のカギは、「辞書」と「文脈」にあった

                                      スマホの音声入力では、マイクに向かってしゃべった声が、リアルタイムに文章として入力されます。その裏側を支えているのが「音声認識」。声を分析し、文字のデータに変換する技術です。「Alexa、電気消して」も「Hey Siri、明日の天気は?」も、音声認識なしには実現しません。 最近では、会議の音声から議事録を作ったり、音声で作業記録を付けたりなど、音声認識の用途は拡がりを見せているそう。一方で、「インタビューの文字起こしがうまくいかない」など、思うように認識されないという声も耳にします。 そもそも、音声認識はどうやって人間の声を認識しているのか? 日本語の音声認識はどこが難しいのか? 音声認識ソリューションを手がける株式会社アドバンスト・メディアの安藤さんに、音声認識の気になる裏側を聞きました。 株式会社アドバンスト・メディア 1997年に創業し、音声認識技術「AmiVoice」をコアとした各

                                        日本語の音声認識はなぜ難しい? 精度向上のカギは、「辞書」と「文脈」にあった
                                      • 文字起こしAIの新顔「ReazonSpeech」、テレビで鍛えた音声認識の精度を試した

                                        AI(人工知能)の研究開発ベンチャーである米OpenAI(オープンAI)が複数の高性能なAIを2022年秋に相次ぎ公開し、世界の技術者から注目を集めている。その1つはチャットで様々な質問に答える対話型AI「ChatGPT」。もう1つは、音声を解析して自動的に文字起こしする音声認識AI「Whisper」だ。筆者もWhisperを使った日本語での文字起こしに挑戦したところ、その精度の高さには舌を巻いた。 こうした中、国産の音声認識AIにも日本語の文字起こしの正確さを売りにする新顔が登場した。スマートフォンゲームや広告、フードデリバリーなどの事業を手掛けるレアゾン・ホールディングスが2023年1月18日に公開した「ReazonSpeech」だ。 ReazonSpeechは3種類のプロダクトで構成されている。1つめは、テレビ放送の録画データなどから音声コーパスを自動抽出する「ReazonSpeec

                                          文字起こしAIの新顔「ReazonSpeech」、テレビで鍛えた音声認識の精度を試した
                                        • 日本語音声のマイク入力をオフラインでリアルタイム音声認識:「VOSK」を JavaScript(Node.js)で扱う - Qiita

                                          この記事の内容は、オフラインでリアルタイム音声認識ができ、日本語にも対応している以下の「VOSK」を試してみた話です。 ●VOSK Offline Speech Recognition API https://alphacephei.com/vosk/ そして今回の記事で、VOSK を扱う開発言語・環境は「JavaScript(Node.js)」です(自分がよく使っているから、という選定理由です)。 なお、対応している他の開発言語などは、公式ページの「Installation」を見ると確認でき、例えばスマホ向け(Android・iOS)や Python・Java・C# などもあるようです。 VOSK を「JavaScript(Node.js)」で扱う それでは、タイトルや冒頭にも書いた JavaScript(Node.js)で VOSK を扱う話へと進んでいきます。 公式ドキュメントの情報

                                            日本語音声のマイク入力をオフラインでリアルタイム音声認識:「VOSK」を JavaScript(Node.js)で扱う - Qiita
                                          • OpenAIのWhisperの音声認識率を計測してみた(AmiVoice VS Whisper) - AmiVoice Techblog

                                            (著者注)本記事は2022年10月に書いたものですが、諸事情で公開が遅くなってしまいました。その後Whisperのlarge-v2やAPIがリリースされるなど状況に変化がありましたが当時書いたものをそのまま公開します。 安藤章悟 みなさま、こんにちは。 2022年の9月22日にOpenAIからWhisperという音声認識エンジンが公開されました。 私も気になったので早速自宅で試してみました。少し試した段階でそれなりにちゃんと音声認識していそうと感じたので、とにかく難易度の高そうな音声を試してみようと思いYoutubeにあったコウメ太夫さんの動画( https://www.youtube.com/watch?v=NnvghuOrThg )を音声認識させてみたところ、ものすごく高精度で衝撃でした。 音声認識が難しい動画って何だろう?と考えてぱっと浮かんだのがコウメ太夫だったので、OpenAIの

                                              OpenAIのWhisperの音声認識率を計測してみた(AmiVoice VS Whisper) - AmiVoice Techblog
                                            • ビデオ会議上の発言を音声認識で自動的にテキスト化してみよう | さくらのナレッジ

                                              こんにちは。さくらインターネットの大井@在宅勤務中です。 ここ最近の世界情勢の中、インターネットを介して遠隔で会議を行う「ビデオ会議」が急速に普及しつつあります。これまではどうしても現地に参加者が集まることができない場合など限定的なシチュエーションでの利用が中心となっていましたが、すでに原則として在宅勤務となった弊社ではミーティングのほぼ100%がビデオ会議で開催されるまでになりました。また、弊社での利用例のようなクローズドな業務用以外にも、広く世の中で授業や講演といった不特定多数が参加する場面でも当たり前に利用されるまでになっています。 ビデオ会議システムでは、オフラインでの会合には無い便利な機能が利用できるのも大きな特徴です。例えば多くのビデオ会議システムに搭載されている録画機能。ミーティング中の動画や音声を記録し、終了後もいつでも参照することが可能になったことで、後でゆっくり議事録や

                                                ビデオ会議上の発言を音声認識で自動的にテキスト化してみよう | さくらのナレッジ
                                              • iOS 17で音声認識アシスタントSiriの「Hey Siri」から「Hey」が削除される可能性

                                                Apple製品で広く使えるSiriは、「Hey Siri」というウェイクワードを駆使して起動することができる音声認識アシスタントです。そんなSiriのウェイクワードから「Hey」がなくなる可能性が指摘されています。 Apple could change 'Hey Siri' to just 'Siri' in iOS 17 https://appleinsider.com/articles/23/06/03/siri-may-lose-the-hey-in-apples-ios-17-changes Apple関連のリーク情報でおなじみのBloombergのマーク・ガーマン記者が、2023年6月3日に「月曜日には誰もがSiri、AI、WWDCについて質問してきます。私がしばらく言及していなかった項目のひとつが、『Hey Siri』から『Hey』を削除するという大きなプロジェクトについてです

                                                  iOS 17で音声認識アシスタントSiriの「Hey Siri」から「Hey」が削除される可能性
                                                • LINEのAI技術を販売する「LINE BRAIN」開始 チャットbotや文字認識、音声認識技術を提供

                                                  LINEは6月27日、自社が開発したAI技術を販売する新事業「LINE BRAIN」を開始すると発表した。AIアシスタント「Clova」の開発で培った音声認識技術や、チャットbot、文字認識の技術を7月以降に提供する。 自然言語の理解・応答技術の「LINE BRAIN CHATBOT」は、LINEの調査によれば、質問に対する応答で他社のチャットbotよりも正答率が高いという。販売するチャットbot技術は、LINE以外のサービスにも実装できる。 「LINE BRAIN OCR」は、画像内の文字を認識してテキストデータに変換する技術。スクリーンショット内の文字などを高い精度で認識するという。領収書の読み取りや、申込書、注文書、免許証の登録などでの活用を見込む。 「LINE BRAIN SPEECH TO TEXT」は、音声をテキストデータに変換する技術。長文の書き起こしや製品名など固有名詞にも

                                                    LINEのAI技術を販売する「LINE BRAIN」開始 チャットbotや文字認識、音声認識技術を提供
                                                  • 音声認識モデル”Whisper”をストリーミング処理対応させる方法 | DevelopersIO

                                                    こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、前回はtranscribeの内容を紐解きました。 Whisperが提供しているtranscribeのAPIは、バッチ処理のみに対応した構成となっており、リアルタイムに認識を試すのが難しくなっています。 そこで今回は、前回紐解いた結果を使ってストリーミング処理に対応させてみようと思います。 設計の概要 以下に設計の概要を図で示します。 前回ご紹介した通り、transcribeの中身は30秒単位で処理をしています(この単位を本記事ではフレームと呼びます)。 そして次の処理フレームは、前のフレームのタイムスタンプトークンの末尾から30秒となります。 そのためフレームをずらす長さ(これを本記事ではシフト長と呼びます)は動的になります。 そのため、設計方針は以下のようにしました。

                                                      音声認識モデル”Whisper”をストリーミング処理対応させる方法 | DevelopersIO
                                                    • マイク入力をWhisperで音声認識

                                                      Whisperを試す Whisperの音声認識が優秀ということで、マイクで試せるようにしてみました。 別に無理して使う必要なかったのですが、諸事上によりDockerを使ってマイクがつながったアプリとソケット通信したりしています。以下みたいな感じです。 リポジトリは以下です。 ほとんど自分のためのメモですが、同じようなことしたい人がいるかもしれないので、簡単に説明を書いておきます。 説明はちょい雑です(すみません)。今後追記したり補足するかも…です。 セットアップ方法 Linux(Ubuntu)前提です。Windows(WSL2)でも多分動くと思います。 マイク マイクは適当なUSBマイクをつなげてください。以下でデバイスを確認できます。 **** ハードウェアデバイス CAPTURE のリスト **** カード 0: Device [USB PnP Audio Device], デバイス

                                                        マイク入力をWhisperで音声認識
                                                      • 世界一と話題の音声認識の実力は!? AI文字起こしツール「VOITER」を使ってみた | GetNavi web ゲットナビ

                                                        Makuakeで「VOITER」というICレコーダーが人気を集めています。いまやスマホでも、かなり良い音質で録音できる時代。ただ音が良い、マイクの感度が高い、といったことだけでは話題にはなりません。VOITERが注目を集めている理由は、AIによる文字起こし機能を備えていること。音声だけでなく、自動で変換されたテキストデータも残せるのです。 ↑VOITER 筆者はライターという仕事柄、取材メモとしての録音が欠かせません。普段はiPhoneの「ボイスメモ」を使っているのですが、使いやすいICレコーダーがあれば購入したいと考えていたところ、このVOITERを試す機会を得ました。 8基のマイクを搭載し、スマホ感覚で操作可能VOITERは、約3.5インチ(筆者の実測)のタッチスクリーンを搭載し、コンパクトなスマホといったサイズ感。上部に2基の指向性マイクを備え、最大10mの距離で集音可能。それだけで

                                                          世界一と話題の音声認識の実力は!? AI文字起こしツール「VOITER」を使ってみた | GetNavi web ゲットナビ
                                                        • 「DNN-HMM」から「End-to-End」へ LINEが取り組む音声認識のしくみ

                                                          東京における音声・音響・信号処理に関するエンジニア・研究者のためのミートアップ「Tokyo BISH Bash」。第3回は、世界中で音響に関する普及・啓蒙を目的として国際音響学会が提唱するイベント「International Year of Sound 2020(IYS2020)」と協力し、日本音響学会電気音響研究会との共催で開催されました。 そこでLINEのSpeech Teamにいる木田祐介氏が、近年話題となっているEnd-to-End音声認識のしくみとプロダクト化への課題について紹介しました。前半は「End-to-End音声認識の概要」について。関連資料はこちら。 「DNN-HMM」と「End-to-End」 木田祐介氏(以下、木田):「End-to-End音声認識の概要とプロダクト化への課題」と題してLINEの木田が発表いたします。 最初に簡単に自己紹介します。僕の略歴はここに書い

                                                            「DNN-HMM」から「End-to-End」へ LINEが取り組む音声認識のしくみ
                                                          • OracleのIaaS向けAIサービス群、日本でも提供へ テキスト分析や音声認識など6種類

                                                            日本オラクルは11月22日、米Oracleが3日(現地時間)に発表したAIサービス群「Oracle Cloud Infrastructure AI」(OCIAI)について、日本でも提供すると明かした。 OCIAIは、IaaS「Oracle Cloud Infrastructure」向けのフルマネージドサービス群。ユーザーは(1)テキスト分析「OCI Language」、(2)音声認識「OCI Speech」、(3)監視業務や欠陥品の選別などに使える画像認識「OCI Vision」、(4)機器の故障検知などに活用できる「OCI Anomaly Detection」、(5)需要予測などに活用できる「OCI Forecasting」、(6)AIのトレーニングに必要なデータセットの作成などを支援する「OCI Data Labeling」──を用途に合わせて利用できる。 このうちOCI Langua

                                                            • 「車特化型ソフトウェアプラットフォーム」や「次世代音声認識」の開発も担う コネクテッド先行開発部における、IVIソフトウェア開発

                                                              トヨタ自動車株式会社が主催となって行うプログラミングコンテスト「TOYOTA Programming Contest 2023 Summer」。トークセッション「ソフトウェア開発事例の紹介」で登壇したのは、トヨタ自動車株式会社 コネクテッド先行開発部の鈴木真一氏。In-Vehicle Infotainment systemの開発について発表しました。 登壇者の自己紹介 高橋直大氏(以下、高橋):大手町オフィスにあるコネクテッド先行開発部から、鈴木真一さまにお越しいただきました。よろしくお願いいたします。 鈴木真一氏(以下、鈴木):よろしくお願いします。 前段いろいろとお話しさせていただいていましたが、ソフトウェアの開発事例紹介ということで、In-Vehicle Infotainment systemの開発について紹介させていただきたいと思います。 あらためまして、トヨタ自動車コネクテッド先

                                                                「車特化型ソフトウェアプラットフォーム」や「次世代音声認識」の開発も担う コネクテッド先行開発部における、IVIソフトウェア開発
                                                              • 自分用に開発した音声認識機能付の単語帳サービス公開してみた

                                                                中国語の勉強を始めるにあたって自分用に単語帳アプリを作ってたら思ったより 大掛かりになってしまったのでせっかくなのでドメイン取得して公開してみたよ 当初は1週間くらいで完成させる予定だったけど2ヶ月くらいかかってしまった…… https://ankilt.net/ サービス名はankilt(アンキルト) イメージとしては↓な感じ https://i.imgur.com/VE4mA72.mp4 単語帳アプリなんて今どき競合だらけだと思うけど 既存のスマホアプリは多くがデバイス間のデータの共有(特にPCとの)がやたら面倒だったり 編集画面がスマホでしか提供してなかったり微妙に不便なものが多かったので 今回はWebサービス(+PWA)として自分好みなUIで開発してみたよ、粗い部分もあるけどとりあえず公開だけ。 途中経過の保存とかは無理だけど一応未ログインでも使えるのと、 会員登録さえすれば覚えた

                                                                  自分用に開発した音声認識機能付の単語帳サービス公開してみた
                                                                • Googleの無料サービスTeachable Machine ノーコードで音声認識モデルを作成してみた | Ledge.ai

                                                                  Teachable MachineはGoogleが提供する、簡単に機械学習のモデルを作成できるサービスです。今回は「音声プロジェクト」を作成します。 まずはTeachable Machineにアクセスし、「使ってみる」をクリックします。 「音声プロジェクト」を選択します。 今回は「おはよう」「こんにちは」「こんばんは」を分類するモデルを作成します。「バックグラウンドノイズ」の「マイク」をクリックします。 ここではノイズを記録するので、「20秒間録画する」をクリックし、何も話さずに20秒間待ちます。その後、「サンプルを抽出」をクリックします。 次に「おはよう」という音声を記録します。「Class2」で「2秒間録画する」をクリックし、マイクに向かって「おはよう」と言います。 その後、「サンプルを抽出」のクリックを4回繰り返します。ここで、わかりやすいように「Class2」を「おはよう」に変更し

                                                                    Googleの無料サービスTeachable Machine ノーコードで音声認識モデルを作成してみた | Ledge.ai
                                                                  • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab

                                                                    「ReazonSpeech」とは¶ 「ReazonSpeech」は、レアゾン・ヒューマンインタラクション研究所が開発した高精度な音声認識モデルを中心とするプロダクト群で、それぞれ以下のような特徴があります。 ReazonSpeech音声認識モデル: OpenAI Whisper※に匹敵する高精度な日本語音声認識モデル。商用利用可 ReazonSpeechコーパス作成ツール: TV録画データ等から音声コーパスを自動抽出するソフトウェアツール。商用利用可 ReazonSpeech音声コーパス: 世界最大19,000時間の高品質な日本語音声認識モデル学習用コーパス いずれも無償にて公開 [図] ReazonSpeech音声認識モデル使用例¶ [図] スマホの通話内容をReazonSpeechを使ってリアルタイムで自動文字起こししてslackに記録する例¶ 開発の背景¶ 近年、深層学習を用いた音声

                                                                    • OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始いたします

                                                                      インター・ラボ株式会社(本社:大阪府大阪市、代表取締役:長山 清志)は、Whisperを利用した音声文字起こしAPI、「WhisperAPI」の無償提供を12月15日(木)より開始します。その高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外部サービスと連携するなど幅広いお客様にご利用いただきたいと考えております。また、APIだけではなくプログラミングの知識をお持ちでない方でも、ブラウザで簡単にご利用いただけるwebサービスも提供いたします。 音声認識モデル「Whisper」とは Whisperとは「DALL・E2」、「GPT-3」などを開発しているOpenAIが開発した汎用的な音声認識モデルです。 教師あり学習で68万時間というデータで学習しており、日本語を含む多言語の音声を高精度で文字起こしします。 その高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外

                                                                        OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始いたします
                                                                      • トヨタとGoogleが連携強化 ネット不要のAI音声認識システムを「カローラ」「LEXUS NX」に提供

                                                                        米Google Cloudは10月11日(現地時間)、トヨタとのパートナーシップを強化すると発表した。トヨタ北米法人が2023年に発売する製品のうち、「カローラ」「LEXUS NX」などにインターネット接続が不要なAI音声認識システム「Speech On-Device」を提供する。 カローラやLEXUS NXに加え、23年に発売する「タンドラ」「セコイア」「LEXUS RX」、4月に発表した新型EV「LEXUS RZ」などにもSpeech On-Deviceを活用した音声サービスを搭載予定。Speech On-Deviceはインターネット接続を必要とせず、トンネルや電波の届きにくい場所でもAIアシスタントの音声認識・音声合成機能を従来と同等の品質で使えるという。 Google Cloudは過去にもネット接続が必要な音声認識サービス「Speech-to-Text」をトヨタに提供。トヨタも一部

                                                                          トヨタとGoogleが連携強化 ネット不要のAI音声認識システムを「カローラ」「LEXUS NX」に提供
                                                                        • 「飲食店の電話予約を受けるAI」登場 客の話を音声認識、日時と人数をシステム入力

                                                                          飲食店の予約管理システムを手掛けるエビソルは10月、顧客からの電話予約にAIが自動対応するサービス「AIレセプション」を始める。独自のAIスタッフ「さゆり」が合成音声で顧客と会話し、来店者数と日時を聞いた上で、エビソルの予約管理システム「ebica」に自動入力する仕組み。電話対応を効率化し、従業員が接客や調理に専念できるようにする。 さゆりは、LINEが外部に提供している音声AI「LINE AiCall」をベースに開発。顧客が電話で「今から空いていますか?」と聞くと、「何名様になりますか?」と人間に近い音声で返答するなど、自然な会話ができるという。 ebicaの予約データを読み込み、「夜の7時でしたらご案内できます」と空き時間を提案することも可能。満席の場合は、別の時間帯を提案したり、近隣の系列店に案内したりできる。予約時間の再確認や、深夜など営業時間外の電話にも対応可能としている。 エビ

                                                                            「飲食店の電話予約を受けるAI」登場 客の話を音声認識、日時と人数をシステム入力
                                                                          • iOS 14ではオンデバイスの音声認識を利用し、火災警報や車のクラクション、猫や犬、赤ん坊の泣き声が認識されると、iPhoneにユーザー通知を表示することが可能に。

                                                                            iOS 14/iPadOS 14ではアクセシビリティ機能の1つとしてオンデバイスの音声認識処理により、火災警報器や車のクラクション、猫や犬の鳴き声、赤ん坊の泣き声を認識しユーザーに通知することが可能になっています。詳細は以下から。 Appleは現地時間2020年09月16日、iPhoneやiPad向けに「iOS 14/iPadOS 14」をリリースしましたが、このiOS 14/iPadOS 14ではWWDC20で紹介された新機能とは別に追加のアクセシビリティ機能として、オンデバイスの音声認識処理を利用し、火災報知器やサイレンの音を検出すると、警報を聞き逃してしまう可能性があるユーザーに通知を表示する機能が搭載されています。 この機能はアクセシビリティに追加された「サウンド認識」という機能で、利用するには設定アプリの[アクセシビリティ] → [サウンド認識]をONにして学習済みデータ(数MB

                                                                              iOS 14ではオンデバイスの音声認識を利用し、火災警報や車のクラクション、猫や犬、赤ん坊の泣き声が認識されると、iPhoneにユーザー通知を表示することが可能に。
                                                                            • AIで特殊詐欺を検出するサービス、NTT東西が提供 音声認識で会話を分析

                                                                              NTT東日本とNTT西日本は11月27日、AIを活用して電話による特殊詐欺を防ぐサービスを、NTTの電話サービス利用者に向けて30日から提供すると発表した。利用料は月額440円(税込、以下同)。別途8800円(装置を契約者自身が取り付ける場合は4400円)の初期費用が発生する。 固定電話に専用の装置を取り付け、レコーダーで会話を録音。通話後に音声データをNTTのクラウドに転送し、AIが音声認識技術でテキスト化した後、不審な言葉の有無や文脈を基に特殊詐欺かどうか判別する。詐欺と判断した場合には、契約者やその親族のメールアドレス・電話番号に警告を送る機能も備える。 あらかじめ装置に電話番号を登録しておけば、その番号からの着信を拒否したり、録音やAIによる解析の対象外になるよう設定したりできる。AIには警察と協力して集めた数百件のデータを学習させているという。 対応する電話サービスは「加入電話」

                                                                                AIで特殊詐欺を検出するサービス、NTT東西が提供 音声認識で会話を分析
                                                                              • Core MLで動かそう!CNNを使った軽量で高速なオンデバイス音声認識

                                                                                ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーで音声認識の研究開発をしている山口です。 私たちは、ヤフーの音声認識の性能を高めるため日々研究開発に取り組んでいます。 今回は、私が新卒1年目で取り組んだEnd-to-End音声認識のデモアプリ開発と、その技術検証結果を紹介したいと思います。 ヤフーの音声認識とは? 皆さんは、ヤフーの音声認識というものをご存じでしょうか? 「Yahoo! JAPAN」アプリを開くと検索欄の右側にマイクボタンがあり、そこを押すことで音声を使った検索ができます。この裏側で動いているのが自社開発の音声認識エンジン「YJVOICE」です。 このYJVOICEは、Yahoo!ニュースやYahoo!乗換案内など、ヤフーで開発されている多くの

                                                                                  Core MLで動かそう!CNNを使った軽量で高速なオンデバイス音声認識
                                                                                • NVIDIAが音声認識追加や画像検索改善を行ったAIチャットボット「ChatRTX」を公開

                                                                                  NVIDIAが、AIチャットボット「ChatRTX」でサポートするLLMを追加して画像検索機能の改善や音声認識機能の追加を行ったことを発表しました。 Build a Custom LLM with ChatRTX | NVIDIA https://www.nvidia.com/en-us/ai-on-rtx/chatrtx/ ChatRTX Adds New AI Models and Features | NVIDIA Blog https://blogs.nvidia.com/blog/ai-decoded-chatrtx-update/ Nvidia’s AI chatbot now supports Google’s Gemma model, voice queries, and more - The Verge https://www.theverge.com/2024/5/1/

                                                                                    NVIDIAが音声認識追加や画像検索改善を行ったAIチャットボット「ChatRTX」を公開