並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 259件

新着順 人気順

音声認識の検索結果41 - 80 件 / 259件

  • OKでもHeyでもない。「ねぇ」で勝負に出たアイリスオーヤマの音声認識テレビ | Forbes JAPAN 公式サイト(フォーブス ジャパン)

    OKでもなければ、Heyでもない。“ねぇ” で黒物家電に乗り込んできたアイリスオーヤマ。同社初となる液晶テレビは「音声認識」を携えての登場となった。 大画面薄型液晶テレビ「LUCA」(るか)は、11月20日よりフロントスピーカーモデル、12月5日よりベゼルレスモデルを発売する。価格は、上位モデル55型でフロントスピーカーモデルが13万4000円、ベゼルレスモデルが65型で18万8000円(ともに税抜)と非常にこなれ感がある。 4年に一度のビッグイベントを来年に控え、我が家のテレビをどうにかしようと考えている家庭は多いのではないか。実際、日本の薄型テレビ市場は活気づいており、4K対応50型以上の国内出荷実績*で言えば、2019年9月時点で、前年対比146%の伸びとなり8月は200%を超えていた。4K・8K放送も始まり、いよいよ盛況の只中にある。 (*一般社団法人電子情報技術産業協会2019年

      OKでもHeyでもない。「ねぇ」で勝負に出たアイリスオーヤマの音声認識テレビ | Forbes JAPAN 公式サイト(フォーブス ジャパン)
    • GPT音声認識雑談マシーンをつくった。:村上福之の「ネットとケータイと俺様」:オルタナティブ・ブログ

      パソコンに話しかけると音声認識でGPTで雑談に応じてくれるサービスをつくった。 ぼくのように、誰にも話しかけられなくてPCの前で独り言をブツブツいっててキモい孤独なオッサンのためのベストなソリューションです。 返答は一応、日本語合成音で返ってきます。 一応、雑にメイドっぽく調教済。 ユーザーを「ご主人さま」と呼びます。 適宜、語尾に「にゃん」をつけるようにしてます。 あとは、適当にメイドっぽくとしか指示してないです。 将来的に人工知能が、現代人類最大の問題である「孤独」を解決するかもしれません。たぶん。 PC/MacのChromeのみ(開発はChromebook+gitpodなので実機動作確認してないw) 2ヶ月前に作った時はOpenAIの利用料が高すぎて、あー、マジどうしようとおもったのですが、OpenAIが(モデル限定されますが)大幅に値下げしたんで、まぁ、ブログに書いてみた。 要go

        GPT音声認識雑談マシーンをつくった。:村上福之の「ネットとケータイと俺様」:オルタナティブ・ブログ
      • 音声認識エンジンはどう選ぶ?主要な4つを比較検証してみた | Ledge.ai

        サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

          音声認識エンジンはどう選ぶ?主要な4つを比較検証してみた | Ledge.ai
        • 【RaspberryPi】Amazon Echoを使った音声認識でNode-REDの処理を行う - uepon日々の備忘録

          以前のエントリーの続きになります。今回はAmazon Echoの音声認識を使用してNode-REDの処理を行います。 Node-REDでAmazon Echoを使用するノードは実は80番ポートでしか待機ができないようになっています(昔は別ポートでもできたみたいな感じ?)そのため、ポート80を別のプロセスで使用していると使用できないという状況のようです。そのため、もし80番ポートを使用しているプロセスが既にあるようであれば、そちらの使用ポートを変更することが妥当かと思います。(最近はhttpsでなければ公開できないことが多いですが、ローカルのプログラムでは割とhttpをつかっていることもあるのでそのための対応と思ってください。) 以下のエントリも参考にさせていただいております。 参考 AmazonEchoからRaspberryPiのコマンドを実行する(node-red-contrib-ama

            【RaspberryPi】Amazon Echoを使った音声認識でNode-REDの処理を行う - uepon日々の備忘録
          • End-to-End 音声認識のレスポンスを高速化する最小遅延学習

            ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。音声認識技術の研究開発を担当している篠原です。 皆さんはスマートフォンで音声による検索を使ったことがあるでしょうか? 音声認識は入力された音声をテキストに変換する技術で音声検索などさまざまなアプリで使われています。最近「End-to-End 音声認識」というニューラルネットに基づく革新的な方式が登場して驚くようなスピードで技術が発展しているところです。この記事ではヤフーにおける End-to-End 音声認識の研究成果の一例として「最小遅延学習」と呼ばれるレスポンス高速化の新技術を紹介します。 なお、本研究は米国カーネギーメロン大学の渡部晋治准教授との共同研究として実施したものです。また、この技術の詳細は先週開催された

              End-to-End 音声認識のレスポンスを高速化する最小遅延学習
            • スマート音声リモコン、音声認識エンジンのライセンス切れでサービス提供終了を予告【やじうまWatch】

                スマート音声リモコン、音声認識エンジンのライセンス切れでサービス提供終了を予告【やじうまWatch】
              • OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を非エンジニアやMacユーザでも簡単に使え、GoogleSheetsやExcelに取り込めるGoogleColaboratoryをつくった - Qiita

                OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を非エンジニアやMacユーザでも簡単に使え、GoogleSheetsやExcelに取り込めるGoogleColaboratoryをつくったPythonwhisperOpenAIGoogleColaboratory 概要 OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を発表しました。 ただこのモデルはGPUを使うので、精度を試したりするのに気軽に実行できません。 特にGPUを積んでいるWindows機がないような、Macユーザは中々このモデルのすごさを自分の使いたい音声や動画で試せないのはもったいないと思います。 また個人的に、このWhisperの音声認識の恩恵を受けれるのは、非エンジニアで議事録などを書かれている方だと考えています。 そこで公式のGoogleColabora

                  OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を非エンジニアやMacユーザでも簡単に使え、GoogleSheetsやExcelに取り込めるGoogleColaboratoryをつくった - Qiita
                • Conformer:Transformerを音声認識に応用!? GoogleによるTransformer×CNNが凄すぎる!!

                  3つの要点 ✔️ TransformerとCNNを組み合わせたモデル,Conformerを音声認識に応用 ✔️ 畳み込みモジュールがConformerにおいて最も重要であることがわかった ✔️ 既存の音声認識研究の中でも最高の精度を確認 Conformer: Convolution-augmented Transformer for Speech Recognition written by Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang (Submitted on 16 May 2020) Comments: Accepted at Interspeech20

                    Conformer:Transformerを音声認識に応用!? GoogleによるTransformer×CNNが凄すぎる!!
                  • wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう - NTT Communications Engineers' Blog

                    この記事は NTTコミュニケーションズ Advent Calendar 2021 の20日目の記事です。 はじめに こんにちは。プラットフォームサービス本部アプリケーションサービス部の是松です。 NTTコミュニケーションズでは自然言語処理、機械翻訳、音声認識・合成、要約、映像解析などのAI関連技術を活用した法人向けサービスを提供しています。(COTOHA シリーズ) NTTコミュニケーションズがこのようなAI関連技術を活用したサービスを展開する強みとして、 NTT研究所の研究成果が利用可能であること 自社の他サービスを利用しているお客様に対してシナジーのあるサービスを提案できること この2点が挙げられると思います。 実際に、私が担当している COTOHA Voice Insight は 通話音声テキスト化によってコンタクトセンターの業務効率化・高度化を実現するサービスなのですが、 NTT研

                      wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう - NTT Communications Engineers' Blog
                    • 脳オルガノイドをコンピューターに接続、日本語の音声認識に成功

                      ヒト「脳オルガノイド」をコンピューター・チップに接続し、単純な計算タスクを実行できるシステムが開発された。新しいバイオ・コンピューターの可能性を示している。 by Abdullahi Tsanni2023.12.12 24 10 米研究チームが、シャーレの中で培養されたヒトの脳細胞の塊である「脳オルガノイド」を電子チップに接続し、簡単な計算タスクを実行することに成功。新たな研究成果として発表した。 発表したのは、インディアナ大学ブルーミントン校のフェン・グオ准教授らの研究チーム。幹細胞から作製した脳オルガノイドをコンピューター・チップに取り付けた「ブレイノウェア(Brainoware)」と呼ばれるセットアップを構築。人工知能(AI)ツールに接続した。研究チームは、このハイブリッド・システムが、情報を処理、学習、記憶できることを明らかにした。初歩的な音声認識の実行にも成功したという。12月1

                        脳オルガノイドをコンピューターに接続、日本語の音声認識に成功
                      • 「Skype」に「ほんやくコンニャク」機能? 音声認識+自然言語処理で異言語対話を容易に/話した言葉を即座に翻訳して自分の声とテキストで伝達。2023年にリリースへ

                          「Skype」に「ほんやくコンニャク」機能? 音声認識+自然言語処理で異言語対話を容易に/話した言葉を即座に翻訳して自分の声とテキストで伝達。2023年にリリースへ
                        • Amazonが音声認識アシスタントAlexaに生成AIを導入、複雑なリクエストを処理可能に

                          現地時間2023年9月20日にバージニア州アーリントンにあるAmazonの第2本社で開催された発表会において、Amazonが音声認識アシスタント・Alexaに生成AIを導入し、スマートスピーカー・Echoファミリー全体のエクスペリエンスを向上させることを発表しました。 Amazon previews the future of Alexa with generative AI https://www.aboutamazon.com/news/devices/amazon-alexa-generative-ai AmazonはAlexaを2014年に発表して以来、「Alexaとの会話を、他の人と話すのと同じぐらい自然にすること」を目指して継続的な改善を続けてきました。生成AIの急速な進化により、目標はもはや手の届くところまで来ているとのこと。 Amazonでは、Alexaとの会話を自然なもの

                            Amazonが音声認識アシスタントAlexaに生成AIを導入、複雑なリクエストを処理可能に
                          • OpenAIの音声認識モデルWhisperを利用し、オーディオやビデオファイルの音声をテキストへ変換してくれるMacアプリ「AI Transcription」がリリース。

                            OpenAIの音声認識モデルWhisperを利用し音声をテキストへ変換してくれるMacアプリ「AI Transcription」がリリースされています。詳細は以下から。 ChatGPTなどを開発するOpenAIは2022年09月、Web上から収集した68万時間にも及ぶ音声データを利用し学習させた自動音声認識(ASR: Automated speech recognition)システム「Whisper」を公開しましたが、このWisperを利用し、音声をテキストへ変換してくっるMacアプリ「AI Transcription」が新たにリリースされています。 Turn audio into text! AI Transcription uses advanced Speech Recognition to transcribe your audio and video files in a bli

                              OpenAIの音声認識モデルWhisperを利用し、オーディオやビデオファイルの音声をテキストへ変換してくれるMacアプリ「AI Transcription」がリリース。
                            • 「Teachable Machine」で機械学習した音声認識データを使って「Scratch」でプログラミング ~拡張機能「TM2Scratch」を専用の「Scratch」で【どれ使う?プログラミング教育ツール】

                                「Teachable Machine」で機械学習した音声認識データを使って「Scratch」でプログラミング ~拡張機能「TM2Scratch」を専用の「Scratch」で【どれ使う?プログラミング教育ツール】
                              • Whisperの音声認識精度および認識速度の検証 - RevComm Tech Blog

                                TL;DR🤩 音声認識器Whisperの認識精度と認識速度について調査 認識精度 英語では論文同様の結果 日本語の認識精度はドメインに依存 baseモデルの推論がドメインにより不安定 ビームサーチの利用により、推論の頑健性が向上 largeモデルのCERはbaseモデルの半分程度 認識速度 baseモデルのRTFはGPUで0.104 largeのRTFは0.408 バッチサイズなどを最適化することで改善 こんにちは。RevCommのリサーチチームでインターンをしている中田亘です。 2022年9月21日にOpenAIからWhisperと呼ばれる音声認識器が一般に公開されました。今回は、Whisperの性能に関して調査を行ったので紹介します。 TL;DR🤩 Whisperとは 実験と結果 実験条件 認識精度 英語でのWER LibriSpeech test-clean test-other

                                  Whisperの音声認識精度および認識速度の検証 - RevComm Tech Blog
                                • パナソニック、自動文字起こしサービス「P-VoT」提供開始--音声認識技術を活用

                                  パナソニック システムソリューションズ ジャパンは10月28日、音声処理・音声認識技術を活用した文字起こしサービス「P-VoT(ピーボット)」を正式に提供開始したと発表した。マスメディア向けに商用サービスとして提供する。サービス開始日は11月13日。価格は1コンテンツあたりの時間長を基準とした従量制で10秒20円になる。 動画・音声ファイルをパナソニックのクラウドサービスにアップロードするだけで、文字起こしを自動化でき、文字起こし作業を、約3分の1の時間に削減できるとしている。 多層のニューラルネットワークを用いた高精度音声認識により、幅広いジャンルの文字起こしに対応。インターネットに接続したウェブブラウザからのアップロードで、テキストの修正作業までができ、特別な機器・設備は不要としている。 編集画面では文字をクリックすると、文字起こしした音声の位置から頭出し、プレビュー再生を開始。再生中

                                    パナソニック、自動文字起こしサービス「P-VoT」提供開始--音声認識技術を活用
                                  • OpenAIの音声認識Whisperがすごいので,Google Colabで試してみた - Qiita

                                    はじめに 2022/09/22にOpenAIが音声認識モデルWhisperを発表しました.Whisperは人間レベルのロバスト性と音声認識の精度を持ったニューラルネットワークであり,オープンソース化されているので誰でも利用可能です! [参考文献] 公式サイト:https://openai.com/blog/whisper 論文   :https://cdn.openai.com/papers/whisper.pdf Github  :https://github.com/openai/whisper Whisperの概要 Whisperは68万時間分の大規模なデータセットで学習された自動音声認識モデルであり,アクセントやバックグラウンドノイズ,および専門用語に対する堅牢性が向上しています.アーキテクチャは,encoder/decoder Transformerとして実装されており,30秒ご

                                      OpenAIの音声認識Whisperがすごいので,Google Colabで試してみた - Qiita
                                    • 「このアニメキャラの声優は?」をAIが解決 音声認識でせりふを分析 21年に新サービス

                                      人材事業などを手掛けるディップは12月23日、アニメの視聴中にスマートフォンをテレビなどにかざすと、キャラクターを担当する声優を検索・表示するアプリ「ANIVO」を発表した。AIが音声認識でせりふを分析し、声優を判定するという。2021年春に提供を始める予定。 スマホにキャラクターのせりふを聞かせると、AIが音声認識技術でテキスト化。ディップが独自に構築した、アニメのせりふを集めたデータベースと照合し、キャラクターの担当声優を検索して表示する。 検索結果には、該当する声優が過去に出演した作品や、その作品が視聴できる動画配信サービスのリンクも掲載。データベースは著作権法上の利用条件を満たしており、過去のサービスでも利用したことがあるという。 コロナ禍による外出自粛の影響でアニメを見る機会が増えたが、好きになったキャラクターの声優が分からない人の利用を見込む。まずはiOS向けに配信し、追ってA

                                        「このアニメキャラの声優は?」をAIが解決 音声認識でせりふを分析 21年に新サービス
                                      • GoogleのAI「Gemin 1.5 Pro」が180カ国で利用可能に。音声認識も対応

                                          GoogleのAI「Gemin 1.5 Pro」が180カ国で利用可能に。音声認識も対応
                                        • iOSのBuild In Sound Analysisを使った音声認識で著作権侵害を防ぐ!

                                          ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。PayPayフリマでiOSアプリ開発を担当している續橋(@tsuzuki817)です。 PayPayフリマは2021年に画像の代わりに動画で商品の動きや細部を伝えられる動画出品機能をリリースしました。(プレスリリース:PayPayフリマ、5~30秒の動画で商品の動きや細部を伝える「動画出品」機能を提供開始) 動画投稿できるということは、撮影時にBGMなどの音楽が混入すると著作権侵害になる可能性もあります。今回は、iOSの音声認識機能「Build In Sound Analysis」を活用してユーザーに注意を促せるようにした事例を紹介します。 PayPayフリマとは? PayPayフリマは、誰でも気軽に、安心して個人間取

                                            iOSのBuild In Sound Analysisを使った音声認識で著作権侵害を防ぐ!
                                          • 【2019年12月版】ラズパイDJにもっとリスナーの声を届けたい!【Angularで音声認識!】 - Qiita

                                            株式会社ピーアールオー(あったらいいな!を作ります) Advent Calendar 2019 の25日目。2019年のアドベントカレンダーのフィナーレを飾る、筆者のマジであったらいいな!はこちら〜! リスナーの声を届けたい! → DJに"声"でリクエストしてみよう! 前回の記事での DJ-Bot は Bot と言いつつ固定のキーワードしか持てないのでリスナーの"声"が届かないDJなのですよね・・・ ぢゃ〜、Chrome搭載の音声認識APIを使って、リスナーの"声"をガチでラズパイDJに届けてみましょうか!(マジすか?!) ということで…今回はAngularにて、"マイクからの音声を文字列に変換して送信する"リクエストフォームを作成いたします。 さらにこれをNode-REDにそのまま載せてみたいと思います。 1. Node-RED を SSL 対応 & 静的サイト有効化 まずはNode-R

                                              【2019年12月版】ラズパイDJにもっとリスナーの声を届けたい!【Angularで音声認識!】 - Qiita
                                            • 音声認識を使ってAdobe Premiere Proの動画テロップを光速で作成する方法 - ICS MEDIA

                                              動画を作るときに、テロップや字幕をつけることがあると思います。音声に視覚情報を加えることで情報の伝達力を強くしたり緩急をつけたり、また電車の中や音が出せない場所での視聴や、難聴の方への配慮にもなります。 しかし、音声を聞いてテキスト入力を何度も繰り返して・・・とても時間がかかりますし、楽しい作業でもありません。そこで今回は、音声の文字起こしソフトを使って、さくっとテロップや字幕作成の方法を紹介します。 こちらが作成する動画イメージです。この手法はFinal Cut Proでも適用できますが、今回はAdobe Premiere Pro向けに説明します。 Vrewを使って文字起こし Vrewは人工知能を活用した動画編集プログラムです。一般的なタイムラインを用いた動画編集とは異なり、文字起こしされた音声を元に、文章を編集するように動画を作成できるのが特徴です。ユーザー登録をすれば無料で利用でき、

                                                音声認識を使ってAdobe Premiere Proの動画テロップを光速で作成する方法 - ICS MEDIA
                                              • Whisperを使ったリアルタイム音声認識と字幕描画方法の紹介 | さくらのナレッジ

                                                OBS WebSocketの設定 OBSのWebSocket機能を有効にします。WebSocket機能は比較的新しい機能で、使ったことがない方も多いと思います。LAN内のコンピュータからOBSの各種プロパティを取得・変更できます。各種プログラミング言語から直接APIを呼べるので、「音声認識の結果を即時に画面に反映する」ような、頻繁に変更される値の更新に適しています。 設定方法は、OBSのメニューから「ツール」-「obs-websocket設定」をクリックし、出てきたダイアログの一番上のチェックボックス「WebSocketサーバーを有効にする」をオンにします。そして「パスワードを生成する」を押します。後述のプログラムで定数として使用します。これでWebSocket機能を使用できるようになります。 Pythonのプログラムから字幕変更 PythonのプログラムからOBSにWebSocketで接

                                                  Whisperを使ったリアルタイム音声認識と字幕描画方法の紹介 | さくらのナレッジ
                                                • 音声認識とは | 基本知識、仕組み、ディープラーニングとの関係、活用事例 | Ledge.ai

                                                  サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                                    音声認識とは | 基本知識、仕組み、ディープラーニングとの関係、活用事例 | Ledge.ai
                                                  • Google製「Teachable Machine」の機械学習で簡単に音声認識データを作る ~TensorFlowの技術を「Scratch」で活用【どれ使う?プログラミング教育ツール】

                                                      Google製「Teachable Machine」の機械学習で簡単に音声認識データを作る ~TensorFlowの技術を「Scratch」で活用【どれ使う?プログラミング教育ツール】
                                                    • Google Cloud上でGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみた | DevelopersIO

                                                      こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。 この記事は、ブログリレー『Google CloudのAI/MLとかなんとか』の3本目の記事になります。 今回は、Vertex AIからGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみたいと思います。 Chirpについて 以下に詳しい説明があります。 Chirp: Universal speech model  |  Cloud Speech-to-Text V2 documentation  |  Google Cloud ChirpはGoogleの次世代音声認識モデルで、現在の音声モデルとは異なるアーキテクチャで学習させたモデルとなっているようです。 Google CloudではCloud Speech-to-Text V2における一つのモデルとして使用できます。その他

                                                        Google Cloud上でGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみた | DevelopersIO
                                                      • 「未来はまだまだ先かな」先日発売されたばかりの新型電気自動車「ホンダe」で音声認識によるナビ設定しようとしたら漫才になった

                                                        リンク Honda公式ホームページ Honda e 公式情報ページ こちらはHonda eの公式情報ページです。最新のWEBカタログで、スタイリングやインテリア、荷室をはじめとする、Honda eの様々な魅力をチェックいただけます。 6 users 2477

                                                          「未来はまだまだ先かな」先日発売されたばかりの新型電気自動車「ホンダe」で音声認識によるナビ設定しようとしたら漫才になった
                                                        • Hugging FaceでOpenAIの音声認識”Whisper”をFine Tuningする方法が公開されました | DevelopersIO

                                                          こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、先日Hugging FaceのブログでHugging Faceのフレームワークを用いたfine-tuningの実行方法が紹介されました。 fine-tuningにより、自社で蓄積された音声や書き起こしのデータセットがある場合は、特化した学習をすることが可能です。 また著名なHugging Faceからfine-tuningの実装がリリースされたことで、今後様々なシーンでの応用の可能性を感じます。 Hugging FaceブログではHindi語を例として実施していますが、今回はこちらについて、日本語データを例にしながら動作を確認していきたいと思います。 概要 本記事では、Hugging Faceのフレームワークを用いたfine-tuningの実行を、日本語データセットを例

                                                            Hugging FaceでOpenAIの音声認識”Whisper”をFine Tuningする方法が公開されました | DevelopersIO
                                                          • Amazonが70億円超の支払いを音声認識アシスタント「Alexa」による特許侵害で命じられる

                                                            Amazonのスマートスピーカーである「Echo」と、これに搭載されている音声認識アシスタントの「Alexa」が、4件の特許を侵害しているとして4670万ドル(約70億円)の支払いを命じられました。 Alexa just cost Amazon another $46.7 million | Ars Technica https://arstechnica.com/gadgets/2023/11/alexa-just-cost-amazon-another-46-7-million/ Nuance Communications傘下のVB Assets(旧VoiceBox Technologies)が、AmazonのEchoおよびAlexaが同社の保有する特許を侵害したとして、デラウェア州連邦裁判所で特許侵害訴訟を起こしました。訴訟の中で、VB Assetsは「インターネットに接続して女性の

                                                              Amazonが70億円超の支払いを音声認識アシスタント「Alexa」による特許侵害で命じられる
                                                            • AIが声からウソを見抜く 劇的に進化する音声認識が変える世界

                                                              ビジネスに役立つAIの基礎知識について分かりやすく解説する本連載。前回の記事から、いまAIが具体的にどのようなアプリケーションに使われているかを紹介している。今回は音声認識の分野について考えてみよう。 連載:よくわかる人工知能の基礎知識 いまや毎日のようにAI(人工知能)の話題が飛び交っている。しかし、どれほどの人がAIについて正しく理解し、他人に説明できるほどの知識を持っているだろうか。本連載では「AIとは何か」といった根本的な問いから最新のAI活用事例まで、主にビジネスパーソン向けに“いまさら聞けないAIに関する話”を解説していく。 (編集:ITmedia村上) 音声認識とは何か 音声認識とは文字通り、人の声(を記録したデータ)を分析する技術だ。音声を文字に置き換える、コマンドとして認識して命じられたアクションを実行する、音声に込められた感情を把握するなど、既に幅広く活用されている。

                                                                AIが声からウソを見抜く 劇的に進化する音声認識が変える世界
                                                              • OpenAIがリリースした音声認識モデル”Whisper”の使い方をまとめてみた | DevelopersIO

                                                                こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、先日は以下の紹介記事を書きました。 今回はもう少し深堀することで、様々な使い方がわかってきたのでシェアしたいと思います。 Whisperでできること APIを使ってできるのは以下になります。 transcribe(書き起こし処理) 音声からの文字書き起こし。 99言語に対応 translate(書き起こし + 翻訳) 音声からの翻訳処理。 入力は多言語に対応していますが、出力は英語のみ。 また内包される機能として、言語判定や有音無音判定(VAD:Voice Activation Detector)があります。 この記事ではそれぞれの使い方を見ていきながら、transcribeの詳細に迫ります。 実行環境 ハードウェアなどの主な情報は以下の通りです。 GPU: Tesla

                                                                  OpenAIがリリースした音声認識モデル”Whisper”の使い方をまとめてみた | DevelopersIO
                                                                • GitHub - 1heisuzuki/speech-to-text-webcam-overlay: Web Speech API で音声認識した結果の字幕をWebカメラ映像に重ねて表示するWebページ

                                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                    GitHub - 1heisuzuki/speech-to-text-webcam-overlay: Web Speech API で音声認識した結果の字幕をWebカメラ映像に重ねて表示するWebページ
                                                                  • Cloudflare、エッジアプリにAIをもたらす「Constellation」発表。画像認識、アノマリ検出、テキスト処理、音声認識など可能

                                                                    Cloudflare、エッジアプリにAIをもたらす「Constellation」発表。画像認識、アノマリ検出、テキスト処理、音声認識など可能 Cloudflareは、同社のCDNプラットフォーム上でAI機能を提供する「Constellation」を発表しました。 Cloudflareは同社のエッジデータセンターで実行されるJavaScriptランタイムであるCloudflare Workersを提供しており、ここでアプリケーションが実行可能です。Constellationは、このアプリケーションに画像認識やテキスト処理などを追加できるようにします。 Today, we're excited to welcome Constellation to the Cloudflare stack. Constellation allows you to run fast, low-latency i

                                                                      Cloudflare、エッジアプリにAIをもたらす「Constellation」発表。画像認識、アノマリ検出、テキスト処理、音声認識など可能
                                                                    • iOS/macOSオンデバイスで爆速で動作する音声認識モデルWhisperKit - Sansan Tech Blog

                                                                      iOSエンジニアの堤です。先日3月28日に開催された弊社主催のLTイベントで、「WhisperKitがだいぶ良いので紹介する」というタイトルで発表しました。 スライドはこちら: www.docswell.com 本記事は、同発表をベースとしつつ、(LTでは時間が足りないので)発表ではカットした内容を盛り込んで記事として再構成したものになります。 WhisperKitとは iOS/macOSオンデバイスで動く音声認識のすごいやつ デモ:標準の音声認識フレームワークSpeechとの比較 Speech WhisperKit なぜ速いのか - WhisperKitの系譜 OpenAI Whisper whisper.cpp Core ML とは whisper.cpp から WhisperKitへ argmax社とApple モデルサイズとメモリ消費量 各モデルのファイルサイズ一覧 メモリ使用量

                                                                        iOS/macOSオンデバイスで爆速で動作する音声認識モデルWhisperKit - Sansan Tech Blog
                                                                      • OpenAIの音声認識モデル Whisperの解説 / Fine Tuning 方法

                                                                        OpenAIから、かなりすごい音声認識モデル Whisperが発表されました。特出すべき点は、教師付き音声68万時間という、かなりヤバめのデータ量で訓練しており、英語では商用の音声認識システムや人間の書き起こしに匹敵する性能とのことです。 社内でも日本語、ブルガリア語、韓国語で試してみましたが、すごい精度でした。日本語の場合、漢字の間違いが多々ありましたが、発音は大体あってそうでした。ブルガリア語は、ロシア語で認識されていました。韓国語は、完璧でした。 しかし、Githubに公開されたコードを見てみると、訓練コードが含まれておらず、公開の予定もないそうです。そこで、本記事では、Whisperの解説に加えて、Fine Tuningの方法を解説します。 ※ Fine Tungingを何となくで作成しているので、正確なコードではないです。気付いた点がありましたら、コメントください。 全てのコード

                                                                          OpenAIの音声認識モデル Whisperの解説 / Fine Tuning 方法
                                                                        • [速報] 医療に特化した音声認識の新サービス Amazon Transcribe Medical が発表されました #reinvent | DevelopersIO

                                                                          こんにちは、菊池です。 re:Invent 2019、はじまりました!たった今開催されているMidnight Madnessの裏で、新しいサービスAmazon Transcribe Medicalが発表されました。 Amazon Transcribe Medical – Real-Time Automatic Speech Recognition for Healthcare Customers AWS announces Amazon Transcribe Medical - Medical Speech Recognition Amazon Transcribe Medical Amazon Transcribe Medical は医療情報に特化した音声認識サービスです。現在、医師の多くが、臨床情報のレポートの作成に多大な時間を費やしているという課題をサポートできます。 その特徴として

                                                                            [速報] 医療に特化した音声認識の新サービス Amazon Transcribe Medical が発表されました #reinvent | DevelopersIO
                                                                          • グーグル担当者が明かす、「Pixel 4」の音声認識の実力

                                                                            米グーグル(Google)は、2019年10月に発売したスマートフォン「Pixel」シリーズの最新機種「Pixel 4」に、さまざまな新機能を搭載した(関連記事)。この中で、「仕事に役立つ」と報道関係者やビジネスパーソンなどから注目を集めた機能が、新しい音声レコーダーアプリである。現状で対応するのは英語だけにとどまるものの、クラウドに接続することなく、Pixel 4内部、いわゆる「on device(オンデバイス)」ながら、高い精度で音声を認識し、それをほぼリアルタイムで文字に起こせることを特徴にする。この新アプリの基になった音声認識技術の実力や今後の展開などについて、グーグルの担当者であるSagar Savla氏が報道機関に向けて語った。

                                                                              グーグル担当者が明かす、「Pixel 4」の音声認識の実力
                                                                            • 独自プロセッサ×音声認識が“文字起こし”に革命を? 「Pixel 6 Pro」全力レビュー(後編)

                                                                              独自プロセッサ×音声認識が“文字起こし”に革命を? 「Pixel 6 Pro」全力レビュー(後編)(1/3 ページ) Googleは10月28日、フラグシップスマートフォン「Pixel 6シリーズ」を発売する。Google Store(Web直販)における税込み販売価格は、「Pixel 6」は7万4800円から、「Pixel 6 Pro」は11万6600円からとなっている。 →Googleの新スマホ「Pixel 6」「Pixel 6 Pro」正式発表 10月28日発売 直販価格は7万4800円から 今回、シリーズの上位モデルであるPixel 6 Proを一足早く試す機会を得た。1週間ほど試用した上での感触を2回に分けて紹介する。後編では、独自プロセッサ「Google Tensor」のパワーを体感しやすい音声認識関連の機能をチェックしつつ、“Androidスマホ”としてのPixel 6 Pr

                                                                                独自プロセッサ×音声認識が“文字起こし”に革命を? 「Pixel 6 Pro」全力レビュー(後編)
                                                                              • AI音声認識APIを提供する開発プラットフォームを一般公開

                                                                                アドバンスト・メディアは2019年12月3日、音声認識APIを提供する開発プラットフォーム「AmiVoice Cloud Platform(アミボイス・クラウド・プラットフォーム)」の一般公開を開始した。第1弾として汎用エンジンを公開、リアルタイム版とバッチ版のAI(人工知能)音声認識APIをラインアップしている。 AmiVoiceは、日本語に強い音声認識エンジンで、最新の深層学習技術を実装。今回、APIとして提供することで、音声文字化や音声対話、音声制御、音声翻訳などを行うアプリケーションやWebサイトといったサービスに音声認識APIを簡単に組み込めるようになる。 リアルタイム認識(WebSocket対応API)とバッチ認識(HTTP対応API)を用意。リアルタイム認識は、HTML5でマイク音声が取得可能なWebブラウザなどで、サーバ型リアルタイム処理ができる。バッチ認識は、音声を一括処

                                                                                  AI音声認識APIを提供する開発プラットフォームを一般公開
                                                                                • 私の「耳」は音声認識アプリ 元「筆談ホステス」の都議、議会変えた:朝日新聞デジタル

                                                                                  ","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 -->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><!-- /news/esi/ichikiji/c6/default.htm -->","naka6Sp":"<!-- BFF3053 SP記事下(中⑥デジ編)パーツ=8826 -->","adcreative72":"<!-- BFF920 広告枠)ADCREATIVE-72 こんな特集も -->\n<!-- Ad BGN -->\n<!-- dfptag PC誘導枠5行 ★ここから -->\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"

                                                                                    私の「耳」は音声認識アプリ 元「筆談ホステス」の都議、議会変えた:朝日新聞デジタル