並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 254件

新着順 人気順

音声認識の検索結果121 - 160 件 / 254件

  • 【wav2vec 2.0】Facebook AIが新しい音声認識フレームワークを公開!自己教師あり学習により正解ラベルなしで高精度を達成!?

    3つの要点 ✔️ Facebook AIが新しい音声認識フレームワーク「wav2vec 2.0」を公開 ✔️ 自己教師あり学習により,少量の文字起こし音声と正解ラベルなし音声で学習 ✔️ ラベルなしデータ・ラベル付きデータのみの場合の両方で最高精度を達成 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations written by Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli (Submitted on 20 Jun 2020 (v1), last revised 22 Oct 2020 (this version, v3)) Comments: Accepted at NeurIPS 2020 Subject

      【wav2vec 2.0】Facebook AIが新しい音声認識フレームワークを公開!自己教師あり学習により正解ラベルなしで高精度を達成!?
    • 【フリーゲーム】彼女の命運は”あなたの声”に託された!?衝撃の音声認識脱出ADV『声で導け!脱出のアリア』 – もぐらゲームス

      人間の声をコンピュータに認識させ、文字列に変換させたり、その特徴に応じて固有の反応を返し、識別する”音声認識”の技術。昨今はパソコン、スマートフォンへの関連機能搭載などもあって急速に世の中へと普及した。ひと昔前はごく一部の言語などにしか反応しなかったのも、AI技術の発展もあり、本格的な対話が実現できるレベルにまで至りつつある。 そんな音声認識はゲームに採用された例も複数ある。中でも『ピカチュウげんきでちゅう』、『シーマン』の2作品は現代ほど技術が発展していなかった時期を象徴する作品として、未だ輝きを放っている。以降も同様の技術を採用したゲームがいくつか誕生し、中には指示を飛ばし、困難を乗り越えるスリリングな内容のものも誕生している。 そんな指示を飛ばすタイプの音声認識採用ゲームがなんと!フリーゲーム界隈に現れた。 その名も『声で導け!脱出のアリア』。 ”あなた”の声で少女を脱出させろ!20

        【フリーゲーム】彼女の命運は”あなたの声”に託された!?衝撃の音声認識脱出ADV『声で導け!脱出のアリア』 – もぐらゲームス
      • 音声認識によるリアルタイム字幕&翻訳が可能な「Speech to Text Webcam Overlay」をZoomで使ってみた - DENET 技術ブログ

          音声認識によるリアルタイム字幕&翻訳が可能な「Speech to Text Webcam Overlay」をZoomで使ってみた - DENET 技術ブログ
        • 誰でも簡単に「会話を目で見る」ことができる 無料のAI音声認識アプリ「CLOVA Note β(クローバ・ノート)」本日より提供開始!

          誰でも簡単に「会話を目で見る」ことができる 無料のAI音声認識アプリ「CLOVA Note β(クローバ・ノート)」本日より提供開始!LINEの音声認識AIによるテキスト変換機能を無料提供 複数名の話者分離を可能とした会議の議事録作成や書き起こしにマルチデバイスで対応 LINE株式会社(本社:東京都新宿区、代表取締役社長:出澤 剛)は、LINEのAIテクノロジーブランド「LINE CLOVA」より、「会話を目で見る」ことができる無料のAI音声認識アプリ「CLOVA Note(クローバ・ノート)」のβ版の提供を本日5月24日(火)より開始しましたので、お知らせいたします。 「CLOVA Note」は、LINE CLOVAのAI技術である「CLOVA Speech(音声認識)」の音声認識AIによって、録音した声をテキストに変換するAI音声認識アプリです。アプリをインストールし、スマートフォンや

            誰でも簡単に「会話を目で見る」ことができる 無料のAI音声認識アプリ「CLOVA Note β(クローバ・ノート)」本日より提供開始!
          • オンライン会議の発言を音声認識で可視化する無料サービス、ユーザーローカルが提供開始 発言者の感情や単語の使用頻度も分析

              オンライン会議の発言を音声認識で可視化する無料サービス、ユーザーローカルが提供開始 発言者の感情や単語の使用頻度も分析
            • 京都大学がAIによるアイヌ語の自動音声認識・合成に成功 | Techable(テッカブル)

              京都大学は、アイヌ語の音声の自動認識・合成を行なう人工知能の開発に成功したと発表した。 消滅危機にあるアイヌ文化今回の研究は、アイヌ文化の多くが口頭で伝承され、アイヌ語は2009年にUNESCOにより「極めて深刻な」消滅危機言語に認定される事態となっている背景を受け進められていた研究。以前から、口頭伝承を録音・記録する活動が様々に行われてきたが、その書き起こし・アーカイブ化には膨大な手間と アイヌ語の知識を必要とするため、多くが未整備となっていた。 そこで同研究グループは、文化庁「アイヌ語のアーカイブ作成支援事業」を活用してアイヌ語アーカイブの構築に取り組んでいるアイヌ民族博物館や平取町立二風谷アイヌ文化博物館と協力しながら、2017年からアイヌ語の自動音声認識・合成(AINU語AI)の研究開発に取り組んできたという。 高い認識率研究では、提供された民話の音声データを分析。その結果、音節を

                京都大学がAIによるアイヌ語の自動音声認識・合成に成功 | Techable(テッカブル)
              • [M1] 音声認識ツール Voskを動かす [Node] | DevelopersIO

                Introduction 各所で話題の日本語音声認識ツール,Voskがすごいです。 実際やってみたところ、簡単なプログラムで日本語のリアルタイム音声認識ができました。 (M1非対応かと思ってたけど、なんか普通に動いた) VoskのインストールからNodeで動かすところまでやっていきます。 Environment OS : MacOS 12.4 Node : v18.2.0 yarn : 1.22.15 MacBook Pro (13-inch, M1, 2020)で動作確認。 Try では実際にやってみます。 Githubにはいろいろなサンプルがありますが、 今回はこのシンプルなプログラムを使ってみます。 このサンプルはマイクから入力された音声を 日本語でコンソールに表示するだけのシンプルなものです。 まずは適当なディレクトリを作成し、voskをインストール。 % mkdir vosk-e

                  [M1] 音声認識ツール Voskを動かす [Node] | DevelopersIO
                • AI音声認識を活用した文字起こしでZoomミーティング・ウェビナーの字幕機能を搭載 | DXを推進するAIポータルメディア「AIsmiley」

                  株式会社アドバンスト・メディアは、AI音声認識を活用した文字起こし支援アプリケーションに、Zoomミーティング・ウェビナーの字幕機能を搭載したことを発表しました。 このAIニュースのポイント AI音声認識を活用した文字起こしでZoomミーティング・ウェビナーの字幕機能を搭載 難聴者・聴覚障がい者との会議にも活用が可能 ソフトをインストールしていない人の画面にも字幕表示が可能 株式会社アドバンスト・メディアは、AI音声認識を活用した文字起こし支援アプリケーション「AmiVoice ScribeAssist」に、Zoomミーティング・ウェビナーの字幕機能を搭載したことを発表しました。また、2月19日(金)、ヤマハ ウェビナーにてZoom連携活用について講演が行われます。 Zoomミーティング・ウェビナーでの会話をリアルタイムで文字化し、画面内に字幕として表示できます。発話を視覚化することでより

                    AI音声認識を活用した文字起こしでZoomミーティング・ウェビナーの字幕機能を搭載 | DXを推進するAIポータルメディア「AIsmiley」
                  • 「JoeyNMT」で音声データを使った自動音声認識、音声翻訳モデルを作る

                    「JoeyNMT」で音声データを使った自動音声認識、音声翻訳モデルを作る:「Python+PyTorch」と「JoeyNMT」で学ぶニューラル機械翻訳(終) 精度向上により、近年利用が広まっている「ニューラル機械翻訳」。その仕組みを、自分で動かしながら学んでみましょう。第3回は「JoeyNMT」を音声に対応させて、音声認識や音声翻訳のタスクをエンドツーエンドで解くモデルを構築してみましょう。 ハイデルベルク大学の博士課程に在籍しながら、八楽という会社で「ヤラクゼン」の開発に携わっている太田です。ヤラクゼンは、AI翻訳から翻訳文の編集、ドキュメントの共有、翻訳会社への発注までを1つにする翻訳プラットフォームです。 第2回は、Discordのチャットbotでニューラル機械翻訳を試す方法と「JoeyNMT」のカスタマイズ方法を紹介しました。第3回は「JoeyNMT」を音声に対応させて、音声認識や

                      「JoeyNMT」で音声データを使った自動音声認識、音声翻訳モデルを作る
                    • M5Stick-Cで音声認識(TensorFlow Lite for MCU)

                      M5Stick-Cに、先日のM5Stack用音声認識を移植してみました。 コードは以下のリポジトリに置いてあります。(M5Stack版の別ブランチ) boochow/TFLite_Micro_MicroSpeech_M5Stack at m5stickc M5Stick-Cでは、マイクがデジタルで、かつスピーカーからのノイズを拾わないためか、認識性能はM5Stackよりも良好です。声もM5Stackのときよりも小さくてもOKです。 認識結果は、Avatarは使わず普通にLCDに表示させています。

                        M5Stick-Cで音声認識(TensorFlow Lite for MCU)
                      • 声でカーナビを操作! ディープラーニングによる音声認識技術の応用事例 #ディープラーニング

                        ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部で音声認識の技術開発を担当している木田です。 この年末年始、帰省や旅行でお出かけの際にカーナビを利用される方が多いのではないでしょうか? ヤフーではYahoo!カーナビというサービスを提供していますが、2018年12月に音声によるハンズフリー操作機能が導入されました(2019年12月現在はAndroid版のみ対応)。 今回はその技術の裏側をご紹介します! 写真:アフロ 使い方とシステム構成 それでは、この機能の使い方を説明します。 まずはYahoo!カーナビを起動し、こちらのページに記載している設定を行うことで、ハンズフリー操作が有効になります。 設定ができたら、「ねぇヤフー」と呼びかけてみてください

                          声でカーナビを操作! ディープラーニングによる音声認識技術の応用事例 #ディープラーニング
                        • 記者に特化した音声認識モデル(Whisper)を作った話|朝日新聞社 メディア研究開発センター

                          こんにちは、メディア研究開発センターの山野陽祐です。 先日、朝日新聞の記者に特化したWhisper (音声認識モデル)を構築し、3月末から社内向けツール「YOLO」にて運用を開始しました。それに至るまでの道のりをこちらの記事でご紹介します。 なお、学習データとして活用するファイルは、社内会議や公の記者会見とし、個人情報やセンシティブな情報が含まれるファイルは使用しておりません。 データ「YOLO」は音声や動画の文字起こしをする社内向けのサービスで、約2年前にリリースしました。この間にアップロードされた音声ファイルや動画ファイルは数千時間におよび、そのうち学習に使えるデータも多くあります。 ここでは、YOLOで蓄積されたデータを紹介し、続いて学習データや評価データについても述べます。 YOLOデータアップロード時、ユーザーにファイルの"ジャンル"を指定してもらうようなサービス設計をしています

                            記者に特化した音声認識モデル(Whisper)を作った話|朝日新聞社 メディア研究開発センター
                          • 「watchOS 11」が登場、手首で手軽に音声認識&翻訳できる機能など

                            2024年6月11日2時からAppleが開催している年次開発者会議「WWDC24」の基調講演で、Apple Watch向けOSである「watchOS」の次期メジャーバージョンとなる「watchOS 11」が発表されました。 Appleのイベント - Apple(日本) https://www.apple.com/jp/apple-events/ watchOS 11が健康とフィットネスに関するパワフルな洞察を提供 - Apple (日本) https://www.apple.com/jp/newsroom/2024/06/watchos-11-brings-powerful-health-and-fitness-insights/ WWDC 2024 — June 10 | Apple - YouTube watchOS 11では新たに「トレーニングの負荷」が登場します。 「トレーニングの

                              「watchOS 11」が登場、手首で手軽に音声認識&翻訳できる機能など
                            • Microsoftが音声認識アシスタント「Cortana」を巡る特許訴訟で377億円の支払い命令を受ける

                              by Underway In Ireland Microsoftの音声認識アシスタント機能「Cortana」がIPA Technologiesの特許を侵害しているとして2018年から行われてきた裁判で、デラウェア州の連邦陪審は特許侵害を認定し、Microsoftに最大2億4200万ドル(約377億円)の支払いを命じました。 Microsoft hit with $242 million US verdict in Cortana patent lawsuit | Reuters https://www.reuters.com/legal/microsoft-hit-with-242-million-us-verdict-cortana-patent-lawsuit-2024-05-10/ Microsoft to Pay $242 Million in Patent Case Over C

                                Microsoftが音声認識アシスタント「Cortana」を巡る特許訴訟で377億円の支払い命令を受ける
                              • 「パズル」でスッキリ! 東大生が「音声認識」の仕組みを徹底解説!(東京大学CAST)

                                最近は、両手がふさがっていても「Hey Siri」や「OK Google」と話しかければスマホを使うことができますよね。便利な世の中だなぁ。 今回の「現役東大生のサイエンス入門」では、そんな「音声認識」に用いられるアルゴリズムについて、「パズル」を用いて迫っていきたいと思います。

                                  「パズル」でスッキリ! 東大生が「音声認識」の仕組みを徹底解説!(東京大学CAST)
                                • 超軽量なCNN音声認識モデル!Google開発「ContextNet」を解説!

                                  3つの要点 ✔️ Googleが軽量なCNN音声認識モデルを提案 ✔️ squeeze-and-excitationモジュールによってグローバルコンテキストを考慮 ✔️ Progressive Downsamplingによってコンピューティングコストを削減 ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context written by Wei Han, Zhengdong Zhang, Yu Zhang, Jiahui Yu, Chung-Cheng Chiu, James Qin, Anmol Gulati, Ruoming Pang, Yonghui Wu (Submitted on 7 May 2020 (v1), last revi

                                    超軽量なCNN音声認識モデル!Google開発「ContextNet」を解説!
                                  • マイクロソフトが買収の「音声認識ソフト」、医療IT激変の破壊力

                                    医療・医薬品業界のオピニオンリーダーとして、1988年創刊「RISFAX」、2000年創刊「医薬経済」を発行しています。毎月1日・15日に公開する「医薬経済ONLINE」 の中から、ダイヤモンド編集部が旬の話題をピックアップして「お届け」します。 医薬経済ONLINE発 独自の切り口で真相を探る。医療・医薬品業界の誰もが知る業界紙!業界のオピニオンリーダーとして、1988年創刊「RISFAX」、2000年創刊「医薬経済」を発行しています。毎月1日・15日に公開する「医薬経済ONLINE」の中から、ダイヤモンド編集部が旬の話題をピックアップして「お届け」します。 バックナンバー一覧 キュア・アップの禁煙治療用アプリ、アップルウォッチの心電図アプリなど、医師と患者をデジタルでつなぐ製品が日本でも相次いで登場している。新型コロナウイルス感染症のパンデミックによって、遠隔診療も事実上解禁されている

                                      マイクロソフトが買収の「音声認識ソフト」、医療IT激変の破壊力
                                    • T5を使用してWhisperの音声認識誤り訂正を行う

                                      音声認識誤りとは音声認識において、未知語に対する認識結果が誤ることがあります。これを音声認識誤りと呼びます。特に、医療用語など専門的な用語が誤りやすい傾向にあります。 これまでの実験弊社では、これまで、WhisperのFine Tuningによる訂正と、Whisperの認識結果に対する誤り訂正辞書のアプローチで音声認識結果の訂正を行いました。しかし、Fine Tuningにはモデルが壊れやすく通常の認識結果の精度が低下するという課題があり、誤り訂正辞書には誤り方の揺らぎに弱いという課題がありました。

                                        T5を使用してWhisperの音声認識誤り訂正を行う
                                      • 音声通話やビデオ通話と併用し、音声認識で会話ログが取れるサービスを作ってみました - Skyway Walkers

                                        現在、音声通話やビデオ通話が可能なサービスは多数存在するのですが、会話の内容を音声認識で字幕表示したり、テキストとして残せるサービスはそれほど多くないように思います。(現状だと英語のみ対応というケースが多い気がします) そのため、音声通話やビデオ通話と併用して利用する事で、日本語での会話内容をテキストで残せるサービスを作ってみました。 ※2020/06/08 追記:サービスの名前変更しました。 skybeje.net 使い方は簡単です。音声通話やビデオ通話をしている状態で 「Talk To CSV」にアクセス(簡易チャットルームが作られます) 上段の「招待URLをコピー」を押し、URLをクリップボードにコピーします。 (招待URLは起動のだびに毎回変わる事に注意してください) 音声通話やビデオ通話の参加者に、そのURLを伝えます。 参加者全員にGoogle Chromeで、そのURLを開い

                                          音声通話やビデオ通話と併用し、音声認識で会話ログが取れるサービスを作ってみました - Skyway Walkers
                                        • ついにラベル無しで音声認識を実現した Facebook の wav2vec-U を解説【論文速報】

                                            ついにラベル無しで音声認識を実現した Facebook の wav2vec-U を解説【論文速報】
                                          • もじこ - AI音声認識を使った文字起こしエディタ

                                            放送局では日々、多くの文字起こしが行われています。文字起こしは地獄です。この地獄に立ち向かうために「もじこ」は作られました。「もじこ」はあなたに寄り添いながら文字起こしのお手伝いをします。

                                              もじこ - AI音声認識を使った文字起こしエディタ
                                            • FeFETによる機械学習、音声認識の精度は95.9%

                                              東京大学は、強誘電体トランジスタ(FeFET)を用いた「リザバーコンピューティング」と呼ばれる機械学習方式を開発し、高い精度で音声認識を行うことに成功した。採用したFeEFTは現行の製造プロセスと親和性が高く、LSIの大規模化も比較的容易とみている。 3つの電流成分の時間応答を組み合わせる方式などを採用 東京大学は2022年6月、強誘電体トランジスタ(FeFET)を用いたリザバーコンピューティングと呼ばれる機械学習方式を開発し、高い精度で音声認識を行うことに成功したと発表した。採用したFeEFTは現行の製造プロセスと親和性が高く、大規模LSIにも比較的対応が容易とみている。 研究グループはこれまで、酸化ハフニウム系強誘電体材料を用いて製造するFeFETを活用したリザバーコンピューティング方式を提案し、その基本動作について確認してきた。ただ、実用化に向けた計算性能の確認や、システム上の課題な

                                                FeFETによる機械学習、音声認識の精度は95.9%
                                              • 音声認識パワーブースター搭載バックブレーダーを実現する

                                                「パワーブースターON!!」子供の頃の夢は現実となった製作物:mylist/67556116「いいね」に作った感想音声認識システム:sm40179914独立可動サスペンション自動走行バックブレーダー:sm39830574Twitter:https://twitter.com/NiwakaraAgeBGM(再生順)Chime - Lifelong [NCS Release],Elektronomia & RUD - Rollercoaster [NCS Release],RudeLies, Distrion, Alex Skrindo & Axol - Together [NCS Release],Chime & MDK - Arcade Dwellers [NCS Release],Everen Maxwell - A Day at Sea [NCS Release

                                                  音声認識パワーブースター搭載バックブレーダーを実現する
                                                • 日本語の音声コーパスCSJでE-Branchformerの音声認識モデルを作って性能を評価する - RevComm Tech Blog

                                                  こんにちは、RevCommでMiiTelの音声解析機能に関する研究開発を担当している石塚です。 2023年1月に開催された国際会議IEEE Workshop on Spoken Language and Technology (SLT) 2022で発表されたE-Branchformer: Branchformer with Enhanced Merging for Speech Recognition (Kim et al., 2023)*1という論文で、音声認識タスクで高い性能を発揮するE-Branchformerという新しい深層学習モデルが提案されました。論文中では英語の音声コーパスを用いて音声認識精度が評価されていますが、日本語についての評価は行われていません。 End-to-end音声処理ツールキットESPnetのversion 202301からこのE-Branchformerが利

                                                    日本語の音声コーパスCSJでE-Branchformerの音声認識モデルを作って性能を評価する - RevComm Tech Blog
                                                  • 巨大な警察官から逃れるゲーム『Militsioner』ゲームプレイ映像公開。音声認識で巨人と会話する奇妙な体験 - AUTOMATON

                                                    インディースタジオTallBoysは2月12日、シュルレアリスム・アドベンチャー『Militsioner』のゲームプレイ映像を新たに公開した。対応プラットフォームはPC(Steam)。リリース時期は今のところ明かされていない。 『Militsioner』は一人称視点のアドベンチャーゲームだ。プレイヤーは“大いなる敵”の監視をかいくぐって奇妙な街からの脱出を目指すことになる。大いなる敵とは、すなわち文字どおり「巨人」。主人公が囚われた街には、なぜか身の丈数十メートルはあろうかという巨大な警察官が棲みついている。犯した覚えのない罪で牢獄送りが言い渡されたプレイヤーは、上空からの目線に見張られつつ、街を探索して脱出の糸口をつかまなくてはならないのだ。 道を拓くためには身を隠すだけでなく、あえて警察官の注意を引くことが必要な場面も。本作は音声認識機能を搭載しており、プレイヤーは声を発することで警官

                                                      巨大な警察官から逃れるゲーム『Militsioner』ゲームプレイ映像公開。音声認識で巨人と会話する奇妙な体験 - AUTOMATON
                                                    • 「音声認識」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音声認識』を5月20日(木)に発売

                                                      インプレスグループでIT関連メディア事業を展開する株式会社インプレス(本社:東京都千代田区、代表取締役社長:小川 亨)は、音声認識の基礎から深層学習を用いた最新手法を解説した書籍『Pythonで学ぶ音声認識』を2021年5月20日(木)に発売いたします。 ■音声認識の基礎から深層学習を用いた最新手法までを解説 音声認識とは、音声信号から発話内容を認識することで、AIスピーカなどに利用されている技術です。本書は、現在までの音声認識技術の発展経緯を学びながら、深層学習を用いた最新の音声認識システムを実装できるようになることを目的とし、その手法をソースコード付きで丁寧に解説しています。 本書は「実際に動くものが作れる」ことを目指して、特定の技術のアルゴリズムと、それを実装するためのソースコードを豊富に紹介する「機械学習実践シリーズ」の2冊目です。2020年8月24日刊行の同シリーズ『Python

                                                        「音声認識」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音声認識』を5月20日(木)に発売
                                                      • ユーザーの意図を汲める音声認識!同時に読みや品詞も推定する、ヤフーのEnd-to-End音声認識研究事例

                                                        ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、ヤフー独自の音声認識エンジン「YJVOICE」の研究開発を担当している大町です。こちらのブログでも紹介しているように、ヤフーではEnd-to-End(E2E)音声認識の研究開発に取り組んでいます。 今回は、自然言語処理のトップカンファレンスNAACL2021(2021 Annual Conference of the North American Chapter of the Association for Computational Linguistics)で発表した、新しいE2E音声認識の手法を紹介します。より詳しい内容を知りたい方は原論文もご参照ください。 既存のE2E音声認識は、ユーザーの発言意図を特定しにくい

                                                          ユーザーの意図を汲める音声認識!同時に読みや品詞も推定する、ヤフーのEnd-to-End音声認識研究事例
                                                        • ブレインパッド社員が投稿したQiita記事まとめ(2020年1月~5月、Python、Google Cloud Platform、音声認識ほか) - Platinum Data Blog by BrainPad

                                                          2018年1月より、ブレインパッドが始めているQiita Organization。社員が投稿した「Qiita記事まとめ」として、2020年1月~5月の記事をご紹介していきます! こんにちは。広報の中村です。 ブレインパッドのデータサイエンティスト・エンジニアが投稿する技術トピックをQiita Organizationにまとめています。 qiita.com このブログを執筆している日時点で167記事が投稿されています! 今回は2020年1月~5月に投稿された記事をご紹介します! 日付 タイトル(リンク) カテゴリ 2020.01.02 Google提供のDataflowテンプレートとJavaScriptの話 JavaScript、Google Cloud Platform、gcp、dataflow、ApacheBeam 2020.01.01 Google Cloud Speech API

                                                            ブレインパッド社員が投稿したQiita記事まとめ(2020年1月~5月、Python、Google Cloud Platform、音声認識ほか) - Platinum Data Blog by BrainPad
                                                          • 【9/30発売】新登場 Fire TV Stick - Alexa対応音声認識リモコン付属 | ストリーミングメディアプレーヤー - ジャニーズ販売情報

                                                            新登場 Fire TV Stick - Alexa対応音声認識リモコン付属 発売日:2020年9月30日 人気のFire TV Stickが前のモデルよりも50%パワフルになって新登場、HDRの鮮明な映像に対応しています。 【Amazon】新登場 Fire TV Stick - Alexa対応音声認識リモコン付属 【楽天市場】新登場 Fire TV Stick - Alexa対応音声認識リモコン付属 我が家には以前のFireTVStickがあります。 Fire TV Stick - Alexa対応音声認識リモコン付属 【Amazon】Fire TV Stick - Alexa対応音声認識リモコン付属 商品詳細 Fire TV StickをHDMI端子対応のテレビに挿してWi-Fiにつなぐだけで、簡単に映画やビデオをテレビの大画面で楽しむことができます。 映画、ドラマ、バラエティ、スポーツ、

                                                              【9/30発売】新登場 Fire TV Stick - Alexa対応音声認識リモコン付属 | ストリーミングメディアプレーヤー - ジャニーズ販売情報
                                                            • 【Python】話題の音声認識ツールキット Vosk を試してみた - Qiita

                                                              はじめに こちらの記事はZennにも投稿しています。 たまたまTLで見かけたので試してみました。結果から言うとすごく簡単、触っていておもしろかったです。 What is Vosk? 20言語以上に対応した音声認識ツールキット。言語モデルが50MBと軽く、組み込みがしやすいです。1 PythonはもちろんのことNode.jsやJava, C#でも実装可能。ラズパイ/iOS/Android用のビルド、Websocketサーバまで用意されているという準備の良さです。 なおM1 Macには非対応です。 詳しくは Vosk のリファレンスで。 サンプル音声の準備 まずは音源の準備をします。フリーの素材がないかと探していたところ こえやさん と言うサイトを見つけたので今回はこちらのファイルを拝借。 Voskのページをみると、しれっと以下のような記載があったのでffmpegで変換します。 When us

                                                                【Python】話題の音声認識ツールキット Vosk を試してみた - Qiita
                                                              • HuggingSoundによる音声認識モデルのfine-tuning | 株式会社AI Shift

                                                                こんにちは AIチームの戸田です 今回は最近リリースされたHuggingFaceをベースにした音声処理用のツール、HuggingSoundを使って音声認識を試してみます。 HuggingSoundはHuggingFaceが公式に出しているものではなく、リオデジャネイロ大学のJonatas Grosman氏が個人的に開発しているライブラリで、今年に入ってリリースされたばかりの新しいライブラリです。 日本語の音声認識モデルはGrosman氏がこのライブラリを使ってCommon Voice、 CSS10、 JSUTをfine-tuningしたものを公開してくれていますが、本記事ではイチからfine-tuningを試してみたいと思います データ準備 学習に使用するデータは声庭で公開されているデータを利用します。声庭は有志でアノテーションを行っている公開音声データで、利用・修正・再配布が自由なオープ

                                                                  HuggingSoundによる音声認識モデルのfine-tuning | 株式会社AI Shift
                                                                • WhisperとPyannoteを用いた話者分離と音声認識 | Hakky Handbook

                                                                  Hakkyでは「データでプロダクトを価値あるものにする」というミッションの元、大規模言語モデルを積極的に活用して記事執筆しております。ビジネスにおけるAI活用のため、Handbookをお役立ていただきましたら幸いです。 概要​ 本記事ではWhisperとPyannoteを使った話者分離と音声認識の方法をサンプルコードとともに紹介します。 2022年12月現在、Whisperで話者分離を行うことは難しく、Pyannoteで話者分離した音声に対してWhisperで音声認識を行う手法が主流となっています。本記事ではYoutube動画を上記方法で話者分離と音声認識にかけてみます。なお、本記事は動作環境としてGoogle Colabを想定しています。 from pathlib import Path #@markdown #### **Youtube video** video_url = "htt

                                                                  • iOS 14で追加された音声認識機能(Sound Recognition)がちょっと怖いらしい 「絶対オンにしないな」「不気味すぎるよ」|ガジェット通信 GetNews

                                                                    iOS 14 comes with support for Sound Recognition in Accessibility. Your phone can now listen for specific sounds – a baby crying, smoke alarm, water running, etc. – and notify you. Amazing feature for all kinds of users – inclusivity at its best. #WWDC2020 pic.twitter.com/3hIL8JuTyB— Federico Viticci (@viticci) June 23, 2020

                                                                      iOS 14で追加された音声認識機能(Sound Recognition)がちょっと怖いらしい 「絶対オンにしないな」「不気味すぎるよ」|ガジェット通信 GetNews
                                                                    • HuggingFaceのwav2vecで音声認識をしてみる

                                                                      Wav2Vec 下記の論文で紹介された手法になります。 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations https://arxiv.org/pdf/2006.11477.pdf 大きな特徴は事前学習とファインチューニングのフェーズに分かれており、事前学習ではラベルデータが必要ない。つまり音声データのみでOKという手法になります。 ラベルコストをさげて学習できる手法ということで有用な手法になります。 下記はモデルの図です。 ラベルなしの事前学習部分が重要なので、その部分にフォーカスして説明します。 音声データを前処理せずにCNNに入力して、音声データを圧縮して量子化しています。 量子化のモジュールではゆらぎを与えるためにギャンブルソフトマックスを採用して、固定的な値を出力しないよう

                                                                        HuggingFaceのwav2vecで音声認識をしてみる
                                                                      • 口パクの顎の動きで音声認識 イヤフォンに後付け可能

                                                                        Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米ニューヨーク州立大学ストーニーブルック校、インド工科大学ガンディーナガル校、米カリフォルニア・マーセッド大学、米テキサス大学アーリントン校による研究チームが開発した「JawSense」は、顎(あご)の動きで音声認識する音声コマンド・ウェアラブルデバイスだ。 このデバイスは耳に装着し、音声認識をハンズフリーで行う。ヘッドフォンやイヤフォンへの後付けも可能だ。 音声入力は、公共の場で使用する場合、機密情報漏えいやプライバシーの侵害の恐れがある。また、ノイズの多い環境では安定して使用できない。研究チームは、これら課題を解決するため、発話時に確実に動作する顎に着目した。 今回の研究は、顎を動かす

                                                                          口パクの顎の動きで音声認識 イヤフォンに後付け可能
                                                                        • Web SpeechRecognition APIを使って、Web フロントで音声認識をする - KAYAC engineers' blog

                                                                          面白プロデュース事業部 フロントエンジニアのゆうもやです。 面白法人カヤックでは、毎月社員が個人で制作したものを発表する「つくっていいとも」という会があります。 カヤックの社員は、業務に関係なく自由に制作・試作することで常に新しいアイデアを生み出すことに取り組んでいます。 今回は、そんなアイデアのネタになりそうなWeb SpeechRecognition APIのご紹介です。 Web SpeechRecognition API とは? Web SpeechRecognition APIは、ブラウザで音声認識を行うためのAPIです。ブラウザに標準で実装されているため、サーバーや特別なライブラリをインストールする必要なく、JavaScriptだけで利用することができます。 対応状況 一部非対応のブラウザはあるものの、ChromeとSafari 14.1以降ではPCとモバイル両対応しているため、

                                                                            Web SpeechRecognition APIを使って、Web フロントで音声認識をする - KAYAC engineers' blog
                                                                          • Facebookが多言語音声認識ディープラーニングモデルをオープンソース化

                                                                            Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

                                                                              Facebookが多言語音声認識ディープラーニングモデルをオープンソース化
                                                                            • AI音声認識技術も超高性能に。AI ボイスレコーダー、AutoMemo Sが有能で超便利|DTMステーション

                                                                              A.I.VOICEやvoicepeak、CeVIO AI、VOICEVOX……などなど音声合成技術がどんどん進化し、人間が喋っているのか、機械が喋っているのか、判断が難しいレベルになってきていますが、今回のテーマは喋るほうのではなく、言葉を聴き、理解するほうの技術について。いわゆる音声認識技術ですが、こちらもAIを使う形になり、ここ数年で飛躍的に進化してきています。実際、そのAI音声認識を用いた製品もいくつか登場してきているようですが、その中でも今、非常に注目を集めているのがソースネクストが販売しているAutoMemo SというAIボイスレコーダーです。 見た目はコンパクトなICレコーダーであり、ボタンを押せば録音がスタートし、再度ボタンを押すとストップするというシンプルな構造ではありますが、単純に録音するだけでなく、録音中の会話がすべてテキストに自動で変換されるのです。そのAutoMem

                                                                                AI音声認識技術も超高性能に。AI ボイスレコーダー、AutoMemo Sが有能で超便利|DTMステーション
                                                                              • 最新の音声認識モデル『Whisper』を使ってみたよ

                                                                                昨日は、あひるさんの知らない技術まみれのチームに移動した時に実践したことでした。 畑の違う技術や分野に挑戦するときはすごい体力がいりますが、そこに果敢に挑戦して成果を出し続けている姿に日々刺激をもらっています..! 改まして、こんにちは! @koonagiです。 普段はインフラエンジニア兼データエンジニアとしてTerraformを書いたり、CI/CD作ったり、ETL処理書いたりしています。 普段とは違うことをしてみようと音声認識モデル『Whisper』をつかってみたので、そのことについて書いてみようと思います。 Whisperとは Whisperってなんなのよというところからですが、最近流行っているChatGPTやGPT-3を開発しているOpenAIが開発している音声認識モデルです。 モデルで利用しているトレーニングデータはウェブで収集したデータでなんと68万時間分のデータとなっております

                                                                                  最新の音声認識モデル『Whisper』を使ってみたよ
                                                                                • Web会議のリアルタイム文字起こしが無料or低価格でできるサービス3選 - 音声認識ラボ by 東京反訳

                                                                                  テレワークの導入によりZoomやSkype、Microsoft TeamsといったWeb会議ツールを使った会議や取材なども今は当たり前になってきているが、その際に発言内容をリアルタイムで文字化できると、会話ログの作成や議事録作成のスピードアップや省力化を図れるなど、もっと生産性を向上させることが可能だ。 前回は個人の方が開発されたWeb会議での発話をリアルタイムで文字に書き起こせる便利ツールを取り上げたが、今回はサービスとして提供されているもので 現在無料あるいは低価格で簡単に利用できる Zoom、Skype、Google Meet、Microsoft Teams等(以下、各種Web会議ツール)で利用できる リアルタイムで文字起こしができる という3点を満たすサービスの中から、3つを選んで紹介する。 ※本内容は、2020年7月13日現在の情報です。 → 情報を更新しました。本内容は、更新日

                                                                                    Web会議のリアルタイム文字起こしが無料or低価格でできるサービス3選 - 音声認識ラボ by 東京反訳