並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 269件

新着順 人気順

音声認識の検索結果161 - 200 件 / 269件

  • 【9/30発売】新登場 Fire TV Stick - Alexa対応音声認識リモコン付属 | ストリーミングメディアプレーヤー - ジャニーズ販売情報

    新登場 Fire TV Stick - Alexa対応音声認識リモコン付属 発売日:2020年9月30日 人気のFire TV Stickが前のモデルよりも50%パワフルになって新登場、HDRの鮮明な映像に対応しています。 【Amazon】新登場 Fire TV Stick - Alexa対応音声認識リモコン付属 【楽天市場】新登場 Fire TV Stick - Alexa対応音声認識リモコン付属 我が家には以前のFireTVStickがあります。 Fire TV Stick - Alexa対応音声認識リモコン付属 【Amazon】Fire TV Stick - Alexa対応音声認識リモコン付属 商品詳細 Fire TV StickをHDMI端子対応のテレビに挿してWi-Fiにつなぐだけで、簡単に映画やビデオをテレビの大画面で楽しむことができます。 映画、ドラマ、バラエティ、スポーツ、

      【9/30発売】新登場 Fire TV Stick - Alexa対応音声認識リモコン付属 | ストリーミングメディアプレーヤー - ジャニーズ販売情報
    • 音声認識の仕組みとは?AI活用のメリットと音声認識技術の最新事例【テクノロジー・AI 入門編】 | スマートホーム(スマートハウス)情報サイト | iedge

      最近では「Google Home」や「Amazon Echo」など、AIスピーカーがたくさん登場しています。「今日の天気はどうなる?」や「今のタイミングにピッタリな曲をかけて」などと音声で命令するだけで、自動でユーザーの音声を処理して適切な答えを返してくれます。このときに使われているのが音声認識の技術です。 音声認識を利用して議事録を自動化するなど、音声認識を利用したサービスは私たちの日常の至るところで目にします。例えば「Android」のスマホを持っている場合は、「Google音声検索」を活用している方も多いのではないでしょうか。しかしさまざまな音声認識サービスを手軽に利用できるにもかかわらず、音声認識の仕組みについてはよく知らない、という方も多くいらっしゃるのではないでしょうか? そこで今回は音声認識の仕組みやAIを活用した音声認識で実現できることなど、音声認識についてさまざまな観点か

        音声認識の仕組みとは?AI活用のメリットと音声認識技術の最新事例【テクノロジー・AI 入門編】 | スマートホーム(スマートハウス)情報サイト | iedge
      • 【Python】話題の音声認識ツールキット Vosk を試してみた - Qiita

        はじめに こちらの記事はZennにも投稿しています。 たまたまTLで見かけたので試してみました。結果から言うとすごく簡単、触っていておもしろかったです。 What is Vosk? 20言語以上に対応した音声認識ツールキット。言語モデルが50MBと軽く、組み込みがしやすいです。1 PythonはもちろんのことNode.jsやJava, C#でも実装可能。ラズパイ/iOS/Android用のビルド、Websocketサーバまで用意されているという準備の良さです。 なおM1 Macには非対応です。 詳しくは Vosk のリファレンスで。 サンプル音声の準備 まずは音源の準備をします。フリーの素材がないかと探していたところ こえやさん と言うサイトを見つけたので今回はこちらのファイルを拝借。 Voskのページをみると、しれっと以下のような記載があったのでffmpegで変換します。 When us

          【Python】話題の音声認識ツールキット Vosk を試してみた - Qiita
        • HuggingSoundによる音声認識モデルのfine-tuning | 株式会社AI Shift

          こんにちは AIチームの戸田です 今回は最近リリースされたHuggingFaceをベースにした音声処理用のツール、HuggingSoundを使って音声認識を試してみます。 HuggingSoundはHuggingFaceが公式に出しているものではなく、リオデジャネイロ大学のJonatas Grosman氏が個人的に開発しているライブラリで、今年に入ってリリースされたばかりの新しいライブラリです。 日本語の音声認識モデルはGrosman氏がこのライブラリを使ってCommon Voice、 CSS10、 JSUTをfine-tuningしたものを公開してくれていますが、本記事ではイチからfine-tuningを試してみたいと思います データ準備 学習に使用するデータは声庭で公開されているデータを利用します。声庭は有志でアノテーションを行っている公開音声データで、利用・修正・再配布が自由なオープ

            HuggingSoundによる音声認識モデルのfine-tuning | 株式会社AI Shift
          • iOS 14で追加された音声認識機能(Sound Recognition)がちょっと怖いらしい 「絶対オンにしないな」「不気味すぎるよ」|ガジェット通信 GetNews

            iOS 14 comes with support for Sound Recognition in Accessibility. Your phone can now listen for specific sounds – a baby crying, smoke alarm, water running, etc. – and notify you. Amazing feature for all kinds of users – inclusivity at its best. #WWDC2020 pic.twitter.com/3hIL8JuTyB— Federico Viticci (@viticci) June 23, 2020

              iOS 14で追加された音声認識機能(Sound Recognition)がちょっと怖いらしい 「絶対オンにしないな」「不気味すぎるよ」|ガジェット通信 GetNews
            • HuggingFaceのwav2vecで音声認識をしてみる

              Wav2Vec 下記の論文で紹介された手法になります。 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations https://arxiv.org/pdf/2006.11477.pdf 大きな特徴は事前学習とファインチューニングのフェーズに分かれており、事前学習ではラベルデータが必要ない。つまり音声データのみでOKという手法になります。 ラベルコストをさげて学習できる手法ということで有用な手法になります。 下記はモデルの図です。 ラベルなしの事前学習部分が重要なので、その部分にフォーカスして説明します。 音声データを前処理せずにCNNに入力して、音声データを圧縮して量子化しています。 量子化のモジュールではゆらぎを与えるためにギャンブルソフトマックスを採用して、固定的な値を出力しないよう

                HuggingFaceのwav2vecで音声認識をしてみる
              • ペイントソフト用音声認識アシスタント 『アイリス』

                話しかけるだけ様々なアプリケーションのキー入力を素早く実行します。 好きな言葉を無制限に登録できる プロのためのVUIアプリ マイクがあればすぐに使い始めることが出来ます。

                  ペイントソフト用音声認識アシスタント 『アイリス』
                • 通話内容をAIが要約して記録 葬儀社の問合わせ応対に「音声認識できるくん」を導入 ライフアンドデザイン・グループ - ロボスタ ロボスタ - ロボット情報WEBマガジン

                  ライフアンドデザイン・グループは、自社の知見を活用し、Hmcomm(エイチエムコム)が提供する音声認識システム「VContact」を、コールセンターやオペレーター業務向けの業界に特化したサービス「音声認識できるくん」として開発・導入することを発表した。 同社は、コンタクトセンターにおける業務工数削減による人員/業務の最適化を目指し、将来的には業界全体の業務効率化を促進するため、グループ外企業への販売・ライセンシング等も予定している。 なお、Hmcommは産総研発のベンチャー企業として、産総研独自の音声処理技術を用いた要素技術の研究・開発、ソリューション・サービスを提供している。 葬儀依頼後の事務処理の負荷が大きい 葬儀の依頼は電話での受付が主流となっている。そして葬儀業界は近年、高齢化社会に伴い、2018年の葬儀取扱件数は約44万件(経済産業省2018年データ)にのぼり、年々増加傾向にある

                    通話内容をAIが要約して記録 葬儀社の問合わせ応対に「音声認識できるくん」を導入 ライフアンドデザイン・グループ - ロボスタ ロボスタ - ロボット情報WEBマガジン
                  • 口パクの顎の動きで音声認識 イヤフォンに後付け可能

                    Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米ニューヨーク州立大学ストーニーブルック校、インド工科大学ガンディーナガル校、米カリフォルニア・マーセッド大学、米テキサス大学アーリントン校による研究チームが開発した「JawSense」は、顎(あご)の動きで音声認識する音声コマンド・ウェアラブルデバイスだ。 このデバイスは耳に装着し、音声認識をハンズフリーで行う。ヘッドフォンやイヤフォンへの後付けも可能だ。 音声入力は、公共の場で使用する場合、機密情報漏えいやプライバシーの侵害の恐れがある。また、ノイズの多い環境では安定して使用できない。研究チームは、これら課題を解決するため、発話時に確実に動作する顎に着目した。 今回の研究は、顎を動かす

                      口パクの顎の動きで音声認識 イヤフォンに後付け可能
                    • AI音声認識技術も超高性能に。AI ボイスレコーダー、AutoMemo Sが有能で超便利|DTMステーション

                      A.I.VOICEやvoicepeak、CeVIO AI、VOICEVOX……などなど音声合成技術がどんどん進化し、人間が喋っているのか、機械が喋っているのか、判断が難しいレベルになってきていますが、今回のテーマは喋るほうのではなく、言葉を聴き、理解するほうの技術について。いわゆる音声認識技術ですが、こちらもAIを使う形になり、ここ数年で飛躍的に進化してきています。実際、そのAI音声認識を用いた製品もいくつか登場してきているようですが、その中でも今、非常に注目を集めているのがソースネクストが販売しているAutoMemo SというAIボイスレコーダーです。 見た目はコンパクトなICレコーダーであり、ボタンを押せば録音がスタートし、再度ボタンを押すとストップするというシンプルな構造ではありますが、単純に録音するだけでなく、録音中の会話がすべてテキストに自動で変換されるのです。そのAutoMem

                        AI音声認識技術も超高性能に。AI ボイスレコーダー、AutoMemo Sが有能で超便利|DTMステーション
                      • 最新の音声認識モデル『Whisper』を使ってみたよ

                        昨日は、あひるさんの知らない技術まみれのチームに移動した時に実践したことでした。 畑の違う技術や分野に挑戦するときはすごい体力がいりますが、そこに果敢に挑戦して成果を出し続けている姿に日々刺激をもらっています..! 改まして、こんにちは! @koonagiです。 普段はインフラエンジニア兼データエンジニアとしてTerraformを書いたり、CI/CD作ったり、ETL処理書いたりしています。 普段とは違うことをしてみようと音声認識モデル『Whisper』をつかってみたので、そのことについて書いてみようと思います。 Whisperとは Whisperってなんなのよというところからですが、最近流行っているChatGPTやGPT-3を開発しているOpenAIが開発している音声認識モデルです。 モデルで利用しているトレーニングデータはウェブで収集したデータでなんと68万時間分のデータとなっております

                          最新の音声認識モデル『Whisper』を使ってみたよ
                        • Web会議のリアルタイム文字起こしが無料or低価格でできるサービス3選 - 音声認識ラボ by 東京反訳

                          テレワークの導入によりZoomやSkype、Microsoft TeamsといったWeb会議ツールを使った会議や取材なども今は当たり前になってきているが、その際に発言内容をリアルタイムで文字化できると、会話ログの作成や議事録作成のスピードアップや省力化を図れるなど、もっと生産性を向上させることが可能だ。 前回は個人の方が開発されたWeb会議での発話をリアルタイムで文字に書き起こせる便利ツールを取り上げたが、今回はサービスとして提供されているもので 現在無料あるいは低価格で簡単に利用できる Zoom、Skype、Google Meet、Microsoft Teams等(以下、各種Web会議ツール)で利用できる リアルタイムで文字起こしができる という3点を満たすサービスの中から、3つを選んで紹介する。 ※本内容は、2020年7月13日現在の情報です。 → 情報を更新しました。本内容は、更新日

                            Web会議のリアルタイム文字起こしが無料or低価格でできるサービス3選 - 音声認識ラボ by 東京反訳
                          • 音声認識を使って起こしたテキストなどを整形/分析/活用したい、そんなときに役立ちそうな無料で使えるツール - 音声認識ラボ by 東京反訳

                            文章に読点を自動で挿入してくれるツール。操作はとても簡単で、テキストエリアに処理したいテキストを入力し、「予測」ボタンを押すだけだ。 使い道の例を挙げると、句読点と改行の自動挿入に対応していない音声認識サービスやアプリ等を使って音声の自動文字起こしを行った場合、認識結果のテキストは句読点や改行が一つもない全文がつながった文章になってしまう。 句読点や改行が全くない文章は、内容は高精度で起こせていても非常に読みづらいものだが、そのときはこのツールを使って読点を挿入すると、ぐっと読みやすくなるのでおすすめだ。 なお、句点と改行については、除去するツールはあるのだが、自動で挿入してくれるツールは今のところ見つけられていない。

                              音声認識を使って起こしたテキストなどを整形/分析/活用したい、そんなときに役立ちそうな無料で使えるツール - 音声認識ラボ by 東京反訳
                            • GPUがなくても高速に音声認識ができるwhisper.cppを試してみる - kun432's blog

                              ちょっと前に、かんたんに高精度な音声認識ができるWhisperが話題でしたが、そもそもそんな高性能GPUうちにはなく、盛大に出遅れていたのですが、 GPU不要・CPUでも「高速」に動作するWhisper CPPがあるということで、手元の環境で試してみました。 目次 目次 参考 環境 音声データについて 手順 まとめ 参考 以下の記事を参考、というかもうほぼ「写経」させていただいただけです。ありがとうございます。 環境 そろそろ買い替えてもなーと思いつつ、普段全然困ってないので買い換えるモチベーションもフトコロもあまりないです。購入時に奮発してほぼフルスペにしたので、今の感じからするとあと2年ぐらいは使えそうだなと思ってます。 MacBookPro (15-inch, 2016) CPU: 2.9GHz クアッドコア Intel Core i7 メモリ: 16GB グラフィック: Radeo

                                GPUがなくても高速に音声認識ができるwhisper.cppを試してみる - kun432's blog
                              • 音声認識で自動文字起こしできる「Googleドキュメント」の使い方 - Hashikake [ハシカケ]

                                音声認識で自動文字起こしできる「Googleドキュメント」の使い方スマートフォンを利用して会話をそのままテキスト化!上手く活用できれば、会議やミーティングでメモをとることではなく、相手の話を聞くことに集中ができるようになります。議事録作成にも役立つかもしれません。必要なものは「Googleドキュメント」と「スマートフォン」の2つ。スマートフォンの音声入力で取り込んだデータを、リアルタイムで編集して議事録作成にも利用できる方法を紹介します。

                                  音声認識で自動文字起こしできる「Googleドキュメント」の使い方 - Hashikake [ハシカケ]
                                • ggml.ai、GPUなしでチャットAIを動作させるライブラリ「GGML」開発中 Raspberry Pi上で音声認識モデルを実行可能

                                  ggml.aiは2023年6月現在、GPUなしでチャットAIを動作させる機械学習用のtensorライブラリ「GGML」を開発中と発表した。 GGMLの特徴は以下の通り。 Cで書かれている 16ビット浮動小数点をサポート 整数量子化をサポート(例:4bit、5bit、8bit) 自動微分 組み込みの最適化アルゴリズム「ADAM」「L-BFGS」などを搭載 Appleシリコン用に最適化 x86アーキテクチャではAVX/AVX2組み込み関数を利用 WebAssemblyおよびWASM SIMDによるWebサポート サードパーティへの依存関係なし 実行時にメモリ割り当てなし ガイド付き言語出力のサポート 関連記事 OpenAI、LLMの「GPT-4」および「GPT-3.5」ファミリーの最新モデルをリリース 関数呼び出しなど可能に OpenAIは、大規模言語モデル(LLM)の「GPT-4」および「G

                                    ggml.ai、GPUなしでチャットAIを動作させるライブラリ「GGML」開発中 Raspberry Pi上で音声認識モデルを実行可能
                                  • LINE、無料AI音声認識アプリ「CLOVA Note β」の提供を開始

                                    LINEは、「LINE CLOVA」より、無料のAI音声認識アプリ「CLOVA Note(クローバ・ノート)」のβ版の提供を開始しました。 このAIニュースのポイント LINEは、無料のAI音声認識アプリ「CLOVA Note」のβ版の提供を開始 「CLOVA Note」は、音声認識AIによって、録音した声をテキストに変換するAI音声認識アプリ 録音時の話者分離が可能なため、会議の議事録作成にも活用 LINE株式会社は、LINEのAIテクノロジーブランド「LINE CLOVA」より、「会話を目で見る」ことができる無料のAI音声認識アプリ「CLOVA Note」のβ版の提供を5月24日より開始しました。 「CLOVA Note」は、LINE CLOVAのAI技術である「CLOVA Speech(音声認識)」の音声認識AIによって、録音した声をテキストに変換するAI音声認識アプリです。アプリを

                                      LINE、無料AI音声認識アプリ「CLOVA Note β」の提供を開始
                                    • ユーザーの意図を汲む音声認識の高速化手法 〜 音声認識と自然言語処理の同時実現

                                      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、ヤフー独自の音声認識エンジン「YJVOICE」の研究開発を担当している大町です。 今回は前回のブログで紹介した音声認識手法の実行時間を削減するための枠組みをご紹介します。この手法は、信号処理分野のトップカンファレンスICASSP2022(2022 IEEE International Conference on Acoustics, Speech and Signal Processing)で発表しました。 ユーザーの意図を汲める音声認識とは(前回のブログのおさらい) 今回のお話に入る前に、前回のブログで紹介した音声認識の手法を復習したいと思います。 音声認識の研究分野では、ユーザーが話した声から発話内容の文字列を一つ

                                        ユーザーの意図を汲む音声認識の高速化手法 〜 音声認識と自然言語処理の同時実現
                                      • 音声認識技術を障害者にも AI活用したグーグルの取り組み | Forbes JAPAN 公式サイト(フォーブス ジャパン)

                                        予定をスケジュール表に組み込みたい時は、スマホに頼めばよい。寝室の電灯をつけたい時は、グーグルホームが代わりにやってくれる──。このように日常的なタスクを自動化・効率化する音声認識・作動システムは、消費者の間で人気を集めており、その市場規模は490億ドル(約5兆3000億円)にまで達している。ただ、発話障害のある人々にとって、音声での指示に頼るテクノロジーはまだ完璧には程遠い。 グーグルはこの状況を変えるべく、「プロジェクト・ユーフォニア(Project Euphonia)」を立ち上げた。同社のプログラム「社会貢献のための人工知能(AI for Social Good)」の一環である同プロジェクトは、耳の不自由な人や、筋萎縮性側索硬化症(ALS)や脳卒中、パーキンソン病、多発性硬化症、外傷性脳損傷などの神経疾患のある人が利用する音声認識を向上させる方法を模索するものだ。 グーグルは非営利団

                                          音声認識技術を障害者にも AI活用したグーグルの取り組み | Forbes JAPAN 公式サイト(フォーブス ジャパン)
                                        • 音声認識モデルが大幅にアップデートされたReazonSpeech v2を使い、音声の文字起こしを試してみた | DevelopersIO

                                          音声認識モデルが大幅にアップデートされたReazonSpeech v2を使い、音声の文字起こしを試してみた はじめに 2024年2月14日に、ReazonSpeechの最新バージョン v2.0が公開されたため、ReazonSpeech音声認識モデルを利用してみました。 ReazonSpeechは、レアゾン・ヒューマンインタラクション研究所が開発した高精度な音声認識モデルを中心とするプロダクト群で、それぞれ以下のような特徴があります。(引用)いずれも無償で公開されています。 ReazonSpeech音声認識モデル: OpenAI Whisper に匹敵する高精度な日本語音声認識モデル。商用利用可 ReazonSpeechコーパス作成ツール: TV録画データ等から音声コーパスを自動抽出するソフトウェアツール。商用利用可 ReazonSpeech音声コーパス: 高品質な日本語音声認識モデル学習用

                                            音声認識モデルが大幅にアップデートされたReazonSpeech v2を使い、音声の文字起こしを試してみた | DevelopersIO
                                          • Googleの文字起こしアプリが日本語対応に! Pixel 6の音声認識新機能がすごいんだって… #Pixel6Launch

                                            Googleの文字起こしアプリが日本語対応に! Pixel 6の音声認識力がすごいんだって… #Pixel6Launch2021.10.20 02:0033,329 嘉島唯 Googleさんありがとうございます……。 Googleから新しく発表されたPixel 6、Pixel 6 Proは、Google初のSoCであるTensorが載っています。これによって処理機能が大幅に向上。いろんなことができるようになりました。GoogleいわくTensorによって「もっとも高度な音声認識を実現」しているといいます。 なかでも最高なのがレコーダーアプリ。録音しながら自動的に文字起こしまでしてくれます。今まで英語のみで使える機能でしたが、Pixel 6からは日本語、フランス語、ドイツ語が対応しました。最高!!!! Image : Google文字起こしの方法は本当に簡単。デフォルトで入っているレコーダー

                                              Googleの文字起こしアプリが日本語対応に! Pixel 6の音声認識新機能がすごいんだって… #Pixel6Launch
                                            • 生成AI特許出願、最多はGoogle 音声認識や合成に力 - 日本経済新聞

                                              画像や文章をつくる生成AI(人工知能)について主要企業による特許出願を専門家の協力で分析した。出願数で米グーグルと米マイクロソフト(MS)が競い、米IBMが続いた。各社の注目特許からは文章の生成に続く潮流として、音声の認識や合成の技術に注力する姿勢がうかがえる。知的財産の分析を手がける知財ランドスケープ(東京・中央)の協力を得て分析した。米オープンAIの「Chat(チャット)GPT」など生成A

                                                生成AI特許出願、最多はGoogle 音声認識や合成に力 - 日本経済新聞
                                              • 京都大学、人工知能でアイヌ語の音声認識・合成に成功

                                                京都大学大学院情報学研究科の河原達也教授らの研究グループは、消滅危機言語に認定されているアイヌ語の音声を自動認識し、合成する人工知能(AI)を開発した。アイヌ語の音声認識・合成システム構築は初めてで、アイヌ語の伝承や学習に効果を上げそうだ。 これにより、1時間のデータに対し、人の手で1日かかる作業がほぼ完全に自動化でき、アイヌ語のアーカイブ構築が大きく効率化することになった。 さらに、提供された音声データのうち、1人当たりで10時間以上会話している人について、AIの深層学習で音声を合成した。9月に白老町で開かれたアイヌ語アーカイブ研究会で実演したところ、博物館関係者から好評を得た。 アイヌ語は北海道や樺太、千島列島などに居住していたアイヌの言語で、口承だけで伝えられてきた。科学的な研究は明治時代以降にスタートしたが、樺太や千島列島では話者がすでに消滅したとされる。北海道の話者数は1996年

                                                  京都大学、人工知能でアイヌ語の音声認識・合成に成功
                                                • iOS/iPadOS 13では機械学習を利用したSiriの音声認識エンジンとアクセシビリティの音声コントロールにより、iPhoneやiPadのほぼ全ての操作を音声だけで行うことが可能に。

                                                  iOS/iPadOS 13では機械学習を利用したSiriの音声認識エンジンとアクセシビリティの音声コントロールにより、iPhoneやiPadのほぼ全ての操作を音声だけで行うことが可能になっています。詳細は以下から。 iOS 13/iPadOS 13がリリースされて以来、AppleのiWorkやAgilebitsの1Password、Shiny FrogのBearなど多くのアプリがアクセシビリティアップデートを提供していますが、これはiOS 13やiPadOS 13(macOS 10.15 Catalinaでも)でアップデートしたアクセシビリティの「音声コントロール」に対応するためで、 現在この機能は米国の英語に最適化されていますが、WWDC 2019でもIan Mackayさんが披露されたとおり、iOS 13/iPadOS 13のボイスコントロールは音声だけでiPhoneやiPadのほぼ全

                                                    iOS/iPadOS 13では機械学習を利用したSiriの音声認識エンジンとアクセシビリティの音声コントロールにより、iPhoneやiPadのほぼ全ての操作を音声だけで行うことが可能に。
                                                  • Web SpeechRecognition APIを使って、Web フロントで音声認識をする - KAYAC engineers' blog

                                                    面白プロデュース事業部 フロントエンジニアのゆうもやです。 面白法人カヤックでは、毎月社員が個人で制作したものを発表する「つくっていいとも」という会があります。 カヤックの社員は、業務に関係なく自由に制作・試作することで常に新しいアイデアを生み出すことに取り組んでいます。 今回は、そんなアイデアのネタになりそうなWeb SpeechRecognition APIのご紹介です。 Web SpeechRecognition API とは? Web SpeechRecognition APIは、ブラウザで音声認識を行うためのAPIです。ブラウザに標準で実装されているため、サーバーや特別なライブラリをインストールする必要なく、JavaScriptだけで利用することができます。 対応状況 一部非対応のブラウザはあるものの、ChromeとSafari 14.1以降ではPCとモバイル両対応しているため、

                                                      Web SpeechRecognition APIを使って、Web フロントで音声認識をする - KAYAC engineers' blog
                                                    • Facebookが多言語音声認識ディープラーニングモデルをオープンソース化

                                                      Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

                                                        Facebookが多言語音声認識ディープラーニングモデルをオープンソース化
                                                      • rinna、日本語特化の基盤モデルを組み合わせた音声認識モデル「Nue ASR」を公開

                                                          rinna、日本語特化の基盤モデルを組み合わせた音声認識モデル「Nue ASR」を公開 
                                                        • 開発実績25年・日本シェアNo1の音声認識サービス「AmiVoice」の実力はどれほどなのか?実際に使ってみた&GIGAZINE読者専用無料期間10倍クーポンあり

                                                          会議や電話の音声を文字起こししたり、音声認識で機械を操作したり、音声入力でレポートを作成したりとさまざまな場面で「音声認識サービス」が必要とされています。そうした需要に応えて世の中には多数の音声認識サービスが登場していますが、そのうちの一つ「AmiVoice」は「えー」「えっと」などの言いよどみを自動削除してくれたり、単語登録で固有名詞も楽々対応だったり、医療や金融などの専門分野に強い特化型エンジンが用意されていたりする日本シェアNo1の音声認識サービスとのことなので、実際に使って確かめてみました。 AI音声認識のAPI・SDKなら-AmiVoice Cloud Platform(アミボイス) https://acp.amivoice.com/ AmiVoice API-開発者向け音声認識エンジン(アミボイス) https://acp.amivoice.com/amivoice_api/

                                                            開発実績25年・日本シェアNo1の音声認識サービス「AmiVoice」の実力はどれほどなのか?実際に使ってみた&GIGAZINE読者専用無料期間10倍クーポンあり
                                                          • 畳み込みニューラルネットワークとは? 「画像・音声認識」の核となる技術のカラクリ

                                                            畳み込みニューラルネットワークとは 畳み込みニューラルネットワーク(CNN: Convolutional Neural Network)というのは、人間の視覚神経を参考にしたアルゴリズムである「ネオコグニトロン」というアルゴリズムを多層ニューラルネットワークに応用したアルゴリズムです。 そもそも、ニューラルネットワーク自体が人間の神経ネットワークを参考につくられたものですが、その中でも「視覚」にフォーカスしたものが、畳み込みニューラルネットワークということになります。「ディープラーニングが画像認識タスクに強い」というのは、主に畳み込みニューラルネットワークの話です。細かく言えば、画像認識が苦手なディープラーニングもあるということです。 また、畳み込みニューラルネットワークは音声認識にも有効です。現在、広く普及しているディープラーニングの用途の多くが「画像認識」や「音声認識」であることを踏ま

                                                              畳み込みニューラルネットワークとは? 「画像・音声認識」の核となる技術のカラクリ
                                                            • インターン生がストリーミングEnd-to-End音声認識のレスポンス高速化に取り組んだ話

                                                              ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。インターン生の齋藤主裕です。 この記事では私がヤフーの音声認識チームで2週間のインターンシップを行った際に取り組んだ内容について紹介します。インターンシップでは主にストリーミングEnd-to-End音声認識のレスポンスを高速化する技術のうち、国際学会で最近発表された技術の追試を行いました。以下ではその技術の概要と得られた結果、およびインターンシップの感想について書きます。 ストリーミングEnd-to-End音声認識とは ニューラルネットワークを使って音声情報から直接発話文字列を出力する手法をEnd-to-End音声認識といいます。End-to-End音声認識は従来手法(ニューラルネットワークと隠れマルコフモデルのハイブ

                                                                インターン生がストリーミングEnd-to-End音声認識のレスポンス高速化に取り組んだ話
                                                              • Amazon Transcribeによる音声認識をポーリング方式(Step Functions + Lambda)でやってみた | DevelopersIO

                                                                Amazon Transcribeによる音声認識をポーリング方式(Step Functions + Lambda)でやってみた Step FunctionsとLambdaを使って**ポーリング方式**によりAmazon Transcribeを利用する仕組みを作ってみたのでご紹介したいと思います。 こんにちは、CX事業本部の若槻です。 本エントリは、AWS LambdaとServerless #1 Advent Calendar 2019の2日目のエントリです。 Amazon Transcribeは、音声認識ジョブの開始から完了までが非同期実行となるため、ジョブの結果取得には主に以下のような方式をとることになります。(AWS機能を利用する場合) ポーリング方式(Step Functions) イベントドリブン方式(CloudWatch Events) 紹介記事:Amazon Transcri

                                                                  Amazon Transcribeによる音声認識をポーリング方式(Step Functions + Lambda)でやってみた | DevelopersIO
                                                                • 音声認識・音声合成・環境音の研究…… 音声処理はますますおもしろくなっていく ここまで来た音声技術

                                                                  音声技術はますますおもしろくなってきている 戸上真人氏(以下、戸上):それでは「ここまで来た音声技術・今後の展望」というタイトルで、パネル形式のカジュアルセッションを開始しようと思います。司会を務めますLINE株式会社の戸上と申します。よろしくお願いいたします。 はじめに、このカジュアルセッションの概要をお伝えしたいと思います。今回の「LINE DEVELOPER DAY 2020」でも多数お伝えしていますが、End-to-Endの音声認識技術やEnd-to-Endの音声合成技術など、DNNベースの音声処理技術が非常に今ホットなトピックになってきてまして、使える段階に来ているんじゃないかなと思っています。 また、環境音識別技術など、これまでにない新しい技術分野も広がりつつありまして、ますますおもしろくなってきているんじゃないかなと私も感じています。 ということで、その音声処理技術を題材にし

                                                                    音声認識・音声合成・環境音の研究…… 音声処理はますますおもしろくなっていく ここまで来た音声技術
                                                                  • 文字起こししたテキストを保存できるChrome拡張機能「Notta 音声認識」の使い方を解説

                                                                    🎉【Nottaアプリ6.0】最新バージョンがリリースされました。🎉バージョンアップを行うことで機能・操作性・品質などが向上し、より快適にご利用になれます。 新バージョンでは、フォルダが階層式になり、ファイルの検索や整理ができます。アップデートしない場合、フォルダに関する機能に影響を与える可能性があります。 手順は簡単!アプリストアで「Notta」を検索して「アップデート」をクッリクしてください。

                                                                      文字起こししたテキストを保存できるChrome拡張機能「Notta 音声認識」の使い方を解説
                                                                    • Fire TV向け「Alexa対応音声認識リモコン」にProモデル登場 バックライトやプログラマブルボタン付きで3980円

                                                                      「リモコンを探す」機能 Alexa対応デバイス、Alexaアプリ、Fire TVアプリからの操作でリモコンを検索可能 このことに伴い、本体にスピーカーを内蔵 バックライト搭載 暗所でリモコンを持ち上げると自動的に点灯 「カスタムボタン」搭載 使途をカスタマイズできるボタンを2つ搭載 任意のアプリを起動するショートカット、またはAlexaコマンドのショートカットとして利用可能 機能の割り当てはボタンの長押しで行える プリセットボタンも従来通り4つ搭載(日本向けモデルでは「Prime Video」「Netflix」「ABEMA」「Amazon Music」のショートカットを搭載) 「ヘッドホンボタン」搭載 Bluetoothオーディオデバイスのペアリング/ペアリング解除を簡単に行える

                                                                        Fire TV向け「Alexa対応音声認識リモコン」にProモデル登場 バックライトやプログラマブルボタン付きで3980円
                                                                      • 音声認識・自然言語処理技術を活用した動画編集ソフトを開発するAI CommunisがエンジェルラウンドでUSD50万ドルの資金調達を実施

                                                                        音声認識・自然言語処理技術を活用した動画編集ソフトを開発するAI CommunisがエンジェルラウンドでUSD50万ドルの資金調達を実施 ~組織強化のため、社外取締役に杉田玲夢氏、COOにKenny Wang氏が参画~ 世界最先端の音声認識および自然言語処理技術を活用したソリューション、ソフトウェア開発に特化した研究開発型スタートアップAI Communis Pte. Ltd.(本社:シンガポール、Co-Founder & CEO:鈴木信彦、読み:エーアイ コムーニス、以下「当社」)は、プロダクト開発を加速させるため、アメリカ、日本およびシンガポールのエンジェル投資家よりUSD50万ドルの調達を完了しました。また成長の更なる加速、組織運営の高度化のため、社外取締役として杉田玲夢氏、Chief Operations OfficerとしてKenny Wang氏が参画したことをお知らせいたします

                                                                          音声認識・自然言語処理技術を活用した動画編集ソフトを開発するAI CommunisがエンジェルラウンドでUSD50万ドルの資金調達を実施
                                                                        • はじめての自然言語処理 QuartzNet による音声認識の検証 | オブジェクトの広場

                                                                          今回は趣向を変えて音声認識について紹介します。分野的には自然言語処理(NLP)でなくて自動音声認識(ASR)なのはわかっているんですが、「人間の発する言葉を機械で処理する」枠には収まっているので、まぁ良いかということで。手法としては NVIDIA の QuartzNet を用いて、日本語音声の認識に挑戦します。 1. はじめに 今回は趣向を変えて音声認識を扱います。いつものように日本語のデータセットを用いて学習や推論のコード例と実験結果を紹介していきますので、興味のある方は試して頂けると良いかと思います。手法としては NVIDIA が開発した End-to-End の音声認識モデルである QuartzNet 1 を用います。最近は End-to-End の音声認識ですと 日本の方が多く開発に携わっている ESPnet 2 の方が情報が多い気がしますが、最近は Transformer がらみ

                                                                            はじめての自然言語処理 QuartzNet による音声認識の検証 | オブジェクトの広場
                                                                          • NECと日本テレビ、AI音声認識技術で生放送番組に自動字幕を付与する実証を実施 認識精度は99.0%

                                                                            『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

                                                                              NECと日本テレビ、AI音声認識技術で生放送番組に自動字幕を付与する実証を実施 認識精度は99.0%
                                                                            • 音声認識字幕ちゃん・チャット翻訳ちゃん(西村良太)

                                                                              認識ちゃん・翻訳ちゃん(西村良太)

                                                                              • 日本語音声認識API主要5社比較

                                                                                1. 日本語音声認識の比較実験実際にそれぞれのAPIを使用して同一の音声データをテキスト化。 正解のテキストと比較して認識精度を評価する。 1.1. 音声認識の評価指標CER(Character Error Rate)によって評価を行う。 CERとは、例えば正解テキストが「こんにちは」だったとして「こんばんは」と認識された場合、 5文字中2文字が間違っているため「CER=2/5=40%」のようにエラー率を計算する評価指標。 pythonではjiwerというライブラリを使用することで簡単に計算できる。 エラー率なので値が小さいほど精度が良いことになる。 本記事における実験結果ではCERの逆数、つまり正解率を記載しているため値が大きいほど精度が良い。 1.2. 認識する音声データ声優事務所の音声サンプルを使用した。 アイムエンタープライズの公式WEBサイトは音声サンプルの長さがほどよく、ファイ

                                                                                  日本語音声認識API主要5社比較
                                                                                • 音声認識技術とは? 議事録作成ツールの現在地、オンプレミスとクラウドの違いと選定ポイント

                                                                                  音声認識技術とは? 議事録作成ツールの現在地、オンプレミスとクラウドの違いと選定ポイント(1/2 ページ) 音声認識技術にあらためて注目が集まる。近年は、働き方改革を背景として、議事録作成支援ツールやコールセンターを中心にビジネスでの活用が広まっている。その実力とは? 認識精度やメリット、オンプレミスとクラウドAPIの違い、製品選定のポイントを解説する。 生産性向上のための手段として期待を集める音声認識 音声認識技術を活用したITソリューションが注目を集めている。音声認識とはその名の通り、人が話した音声をコンピュータが自動的に認識し、テキストデータに変換するというもの。これを応用することで、多くの人手が費やされている仕事を省力化でき、業務効率化を実現できるといわれる。既にコールセンター業務や医療現場、議事録作成といった分野で活用されており、最近ではRPA(Robotic Process A

                                                                                    音声認識技術とは? 議事録作成ツールの現在地、オンプレミスとクラウドの違いと選定ポイント