タイトル「音声認識」を検索 - はてなブックマーク

121 - 160 件 / 254件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

音声認識の検索結果121 - 160 件 / 254件

【wav2vec 2.0】Facebook AIが新しい音声認識フレームワークを公開！自己教師あり学習により正解ラベルなしで高精度を達成！？
- 6 users
- ai-scholar.tech
- テクノロジー
- 2020/12/01
3つの要点 ✔️ Facebook AIが新しい音声認識フレームワーク「wav2vec 2.0」を公開 ✔️ 自己教師あり学習により，少量の文字起こし音声と正解ラベルなし音声で学習 ✔️ ラベルなしデータ・ラベル付きデータのみの場合の両方で最高精度を達成 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations written by Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli (Submitted on 20 Jun 2020 (v1), last revised 22 Oct 2020 (this version, v3)) Comments: Accepted at NeurIPS 2020 Subject
- 学習
- あとで読む
【フリーゲーム】彼女の命運は”あなたの声”に託された！？衝撃の音声認識脱出ADV『声で導け！脱出のアリア』 – もぐらゲームス
- 5 users
- www.moguragames.com
- アニメとゲーム
- 2020/05/31
人間の声をコンピュータに認識させ、文字列に変換させたり、その特徴に応じて固有の反応を返し、識別する”音声認識”の技術。昨今はパソコン、スマートフォンへの関連機能搭載などもあって急速に世の中へと普及した。ひと昔前はごく一部の言語などにしか反応しなかったのも、AI技術の発展もあり、本格的な対話が実現できるレベルにまで至りつつある。そんな音声認識はゲームに採用された例も複数ある。中でも『ピカチュウげんきでちゅう』、『シーマン』の2作品は現代ほど技術が発展していなかった時期を象徴する作品として、未だ輝きを放っている。以降も同様の技術を採用したゲームがいくつか誕生し、中には指示を飛ばし、困難を乗り越えるスリリングな内容のものも誕生している。そんな指示を飛ばすタイプの音声認識採用ゲームがなんと！フリーゲーム界隈に現れた。その名も『声で導け！脱出のアリア』。 ”あなた”の声で少女を脱出させろ！20
音声認識によるリアルタイム字幕&翻訳が可能な「Speech to Text Webcam Overlay」をZoomで使ってみた - DENET 技術ブログ
- 5 users
- blog.denet.co.jp
- テクノロジー
- 2021/03/07
誰でも簡単に「会話を目で見る」ことができる　無料のAI音声認識アプリ「CLOVA Note β（クローバ・ノート）」本日より提供開始！
- 5 users
- prtimes.jp
- テクノロジー
- 2022/05/24
誰でも簡単に「会話を目で見る」ことができる　無料のAI音声認識アプリ「CLOVA Note β（クローバ・ノート）」本日より提供開始！LINEの音声認識AIによるテキスト変換機能を無料提供　複数名の話者分離を可能とした会議の議事録作成や書き起こしにマルチデバイスで対応 LINE株式会社（本社：東京都新宿区、代表取締役社長：出澤剛）は、LINEのAIテクノロジーブランド「LINE CLOVA」より、「会話を目で見る」ことができる無料のAI音声認識アプリ「CLOVA Note（クローバ・ノート）」のβ版の提供を本日5月24日（火）より開始しましたので、お知らせいたします。「CLOVA Note」は、LINE CLOVAのAI技術である「CLOVA Speech（音声認識）」の音声認識AIによって、録音した声をテキストに変換するAI音声認識アプリです。アプリをインストールし、スマートフォンや
- 人工知能
オンライン会議の発言を音声認識で可視化する無料サービス、ユーザーローカルが提供開始　発言者の感情や単語の使用頻度も分析
- 5 users
- internet.watch.impress.co.jp
- テクノロジー
- 2020/09/25
- あとで読む
京都大学がAIによるアイヌ語の自動音声認識・合成に成功 | Techable(テッカブル)
- 5 users
- techable.jp
- テクノロジー
- 2020/10/27
京都大学は、アイヌ語の音声の自動認識・合成を行なう人工知能の開発に成功したと発表した。消滅危機にあるアイヌ文化今回の研究は、アイヌ文化の多くが口頭で伝承され、アイヌ語は2009年にUNESCOにより「極めて深刻な」消滅危機言語に認定される事態となっている背景を受け進められていた研究。以前から、口頭伝承を録音・記録する活動が様々に行われてきたが、その書き起こし・アーカイブ化には膨大な手間とアイヌ語の知識を必要とするため、多くが未整備となっていた。そこで同研究グループは、文化庁「アイヌ語のアーカイブ作成支援事業」を活用してアイヌ語アーカイブの構築に取り組んでいるアイヌ民族博物館や平取町立二風谷アイヌ文化博物館と協力しながら、2017年からアイヌ語の自動音声認識・合成（AINU語AI）の研究開発に取り組んできたという。高い認識率研究では、提供された民話の音声データを分析。その結果、音節を
- 言語
- AI
- 大学
[M1] 音声認識ツール Voskを動かす [Node] | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2022/07/07
Introduction 各所で話題の日本語音声認識ツール,Voskがすごいです。実際やってみたところ、簡単なプログラムで日本語のリアルタイム音声認識ができました。 (M1非対応かと思ってたけど、なんか普通に動いた) VoskのインストールからNodeで動かすところまでやっていきます。 Environment OS : MacOS 12.4 Node : v18.2.0 yarn : 1.22.15 MacBook Pro (13-inch, M1, 2020)で動作確認。 Try では実際にやってみます。 Githubにはいろいろなサンプルがありますが、今回はこのシンプルなプログラムを使ってみます。このサンプルはマイクから入力された音声を日本語でコンソールに表示するだけのシンプルなものです。まずは適当なディレクトリを作成し、voskをインストール。 % mkdir vosk-e
- 音声認識
AI音声認識を活用した文字起こしでZoomミーティング・ウェビナーの字幕機能を搭載 | DXを推進するAIポータルメディア「AIsmiley」
- 5 users
- aismiley.co.jp
- テクノロジー
- 2021/02/17
株式会社アドバンスト・メディアは、AI音声認識を活用した文字起こし支援アプリケーションに、Zoomミーティング・ウェビナーの字幕機能を搭載したことを発表しました。このAIニュースのポイント AI音声認識を活用した文字起こしでZoomミーティング・ウェビナーの字幕機能を搭載難聴者・聴覚障がい者との会議にも活用が可能ソフトをインストールしていない人の画面にも字幕表示が可能株式会社アドバンスト・メディアは、AI音声認識を活用した文字起こし支援アプリケーション「AmiVoice ScribeAssist」に、Zoomミーティング・ウェビナーの字幕機能を搭載したことを発表しました。また、2月19日（金)、ヤマハウェビナーにてZoom連携活用について講演が行われます。 Zoomミーティング・ウェビナーでの会話をリアルタイムで文字化し、画面内に字幕として表示できます。発話を視覚化することでより
「JoeyNMT」で音声データを使った自動音声認識、音声翻訳モデルを作る
- 5 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2022/08/17
「JoeyNMT」で音声データを使った自動音声認識、音声翻訳モデルを作る：「Python＋PyTorch」と「JoeyNMT」で学ぶニューラル機械翻訳（終）精度向上により、近年利用が広まっている「ニューラル機械翻訳」。その仕組みを、自分で動かしながら学んでみましょう。第3回は「JoeyNMT」を音声に対応させて、音声認識や音声翻訳のタスクをエンドツーエンドで解くモデルを構築してみましょう。ハイデルベルク大学の博士課程に在籍しながら、八楽という会社で「ヤラクゼン」の開発に携わっている太田です。ヤラクゼンは、AI翻訳から翻訳文の編集、ドキュメントの共有、翻訳会社への発注までを1つにする翻訳プラットフォームです。第2回は、Discordのチャットbotでニューラル機械翻訳を試す方法と「JoeyNMT」のカスタマイズ方法を紹介しました。第3回は「JoeyNMT」を音声に対応させて、音声認識や
M5Stick-Cで音声認識（TensorFlow Lite for MCU）
- 5 users
- blog.boochow.com
- テクノロジー
- 2020/06/09
M5Stick-Cに、先日のM5Stack用音声認識を移植してみました。コードは以下のリポジトリに置いてあります。（M5Stack版の別ブランチ） boochow/TFLite_Micro_MicroSpeech_M5Stack at m5stickc M5Stick-Cでは、マイクがデジタルで、かつスピーカーからのノイズを拾わないためか、認識性能はM5Stackよりも良好です。声もM5Stackのときよりも小さくてもOKです。認識結果は、Avatarは使わず普通にLCDに表示させています。
声でカーナビを操作！　ディープラーニングによる音声認識技術の応用事例 #ディープラーニング
- 5 users
- techblog.yahoo.co.jp
- テクノロジー
- 2019/12/15
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部で音声認識の技術開発を担当している木田です。この年末年始、帰省や旅行でお出かけの際にカーナビを利用される方が多いのではないでしょうか？ヤフーではYahoo!カーナビというサービスを提供していますが、2018年12月に音声によるハンズフリー操作機能が導入されました（2019年12月現在はAndroid版のみ対応）。今回はその技術の裏側をご紹介します！写真：アフロ使い方とシステム構成それでは、この機能の使い方を説明します。まずはYahoo!カーナビを起動し、こちらのページに記載している設定を行うことで、ハンズフリー操作が有効になります。設定ができたら、「ねぇヤフー」と呼びかけてみてください
- yahoo
記者に特化した音声認識モデル(Whisper)を作った話｜朝日新聞社メディア研究開発センター
- 5 users
- note.com/asahi_ictrad
- テクノロジー
- 2023/07/10
こんにちは、メディア研究開発センターの山野陽祐です。先日、朝日新聞の記者に特化したWhisper (音声認識モデル)を構築し、3月末から社内向けツール「YOLO」にて運用を開始しました。それに至るまでの道のりをこちらの記事でご紹介します。なお、学習データとして活用するファイルは、社内会議や公の記者会見とし、個人情報やセンシティブな情報が含まれるファイルは使用しておりません。データ「YOLO」は音声や動画の文字起こしをする社内向けのサービスで、約2年前にリリースしました。この間にアップロードされた音声ファイルや動画ファイルは数千時間におよび、そのうち学習に使えるデータも多くあります。ここでは、YOLOで蓄積されたデータを紹介し、続いて学習データや評価データについても述べます。 YOLOデータアップロード時、ユーザーにファイルの"ジャンル"を指定してもらうようなサービス設計をしています
- ai
「watchOS 11」が登場、手首で手軽に音声認識＆翻訳できる機能など
- 5 users
- gigazine.net
- テクノロジー
- 2024/06/11
2024年6月11日2時からAppleが開催している年次開発者会議「WWDC24」の基調講演で、Apple Watch向けOSである「watchOS」の次期メジャーバージョンとなる「watchOS 11」が発表されました。 Appleのイベント - Apple（日本） https://www.apple.com/jp/apple-events/ watchOS 11が健康とフィットネスに関するパワフルな洞察を提供 - Apple (日本) https://www.apple.com/jp/newsroom/2024/06/watchos-11-brings-powerful-health-and-fitness-insights/ WWDC 2024 — June 10 | Apple - YouTube watchOS 11では新たに「トレーニングの負荷」が登場します。「トレーニングの
Microsoftが音声認識アシスタント「Cortana」を巡る特許訴訟で377億円の支払い命令を受ける
- 5 users
- gigazine.net
- テクノロジー
- 2020/06/05
by Underway In Ireland Microsoftの音声認識アシスタント機能「Cortana」がIPA Technologiesの特許を侵害しているとして2018年から行われてきた裁判で、デラウェア州の連邦陪審は特許侵害を認定し、Microsoftに最大2億4200万ドル(約377億円)の支払いを命じました。 Microsoft hit with $242 million US verdict in Cortana patent lawsuit | Reuters https://www.reuters.com/legal/microsoft-hit-with-242-million-us-verdict-cortana-patent-lawsuit-2024-05-10/ Microsoft to Pay $242 Million in Patent Case Over C
- AI
- ビジネス
「パズル」でスッキリ！　東大生が「音声認識」の仕組みを徹底解説！（東京大学CAST）
- 5 users
- gendai.media
- 世の中
- 2020/06/20
最近は、両手がふさがっていても「Hey Siri」や「OK Google」と話しかければスマホを使うことができますよね。便利な世の中だなぁ。今回の「現役東大生のサイエンス入門」では、そんな「音声認識」に用いられるアルゴリズムについて、「パズル」を用いて迫っていきたいと思います。
- あとで読む
超軽量なCNN音声認識モデル！Google開発「ContextNet」を解説！
- 5 users
- ai-scholar.tech
- テクノロジー
- 2021/09/13
3つの要点 ✔️ Googleが軽量なCNN音声認識モデルを提案 ✔️ squeeze-and-excitationモジュールによってグローバルコンテキストを考慮 ✔️ Progressive Downsamplingによってコンピューティングコストを削減 ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context written by Wei Han, Zhengdong Zhang, Yu Zhang, Jiahui Yu, Chung-Cheng Chiu, James Qin, Anmol Gulati, Ruoming Pang, Yonghui Wu (Submitted on 7 May 2020 (v1), last revi
マイクロソフトが買収の「音声認識ソフト」、医療IT激変の破壊力
- 4 users
- diamond.jp
- テクノロジー
- 2021/05/20
医療・医薬品業界のオピニオンリーダーとして、1988年創刊「RISFAX」、2000年創刊「医薬経済」を発行しています。毎月1日・15日に公開する「医薬経済ONLINE」の中から、ダイヤモンド編集部が旬の話題をピックアップして「お届け」します。医薬経済ONLINE発独自の切り口で真相を探る。医療・医薬品業界の誰もが知る業界紙！業界のオピニオンリーダーとして、1988年創刊「RISFAX」、2000年創刊「医薬経済」を発行しています。毎月1日・15日に公開する「医薬経済ONLINE」の中から、ダイヤモンド編集部が旬の話題をピックアップして「お届け」します。バックナンバー一覧キュア・アップの禁煙治療用アプリ、アップルウォッチの心電図アプリなど、医師と患者をデジタルでつなぐ製品が日本でも相次いで登場している。新型コロナウイルス感染症のパンデミックによって、遠隔診療も事実上解禁されている
- AI
- 技術
T5を使用してWhisperの音声認識誤り訂正を行う
- 4 users
- medium.com
- テクノロジー
- 2024/01/17
音声認識誤りとは音声認識において、未知語に対する認識結果が誤ることがあります。これを音声認識誤りと呼びます。特に、医療用語など専門的な用語が誤りやすい傾向にあります。これまでの実験弊社では、これまで、WhisperのFine Tuningによる訂正と、Whisperの認識結果に対する誤り訂正辞書のアプローチで音声認識結果の訂正を行いました。しかし、Fine Tuningにはモデルが壊れやすく通常の認識結果の精度が低下するという課題があり、誤り訂正辞書には誤り方の揺らぎに弱いという課題がありました。
音声通話やビデオ通話と併用し、音声認識で会話ログが取れるサービスを作ってみました - Skyway Walkers
- 4 users
- iwatendo.hateblo.jp
- 世の中
- 2020/05/02
現在、音声通話やビデオ通話が可能なサービスは多数存在するのですが、会話の内容を音声認識で字幕表示したり、テキストとして残せるサービスはそれほど多くないように思います。（現状だと英語のみ対応というケースが多い気がします）そのため、音声通話やビデオ通話と併用して利用する事で、日本語での会話内容をテキストで残せるサービスを作ってみました。 ※2020/06/08 追記：サービスの名前変更しました。 skybeje.net 使い方は簡単です。音声通話やビデオ通話をしている状態で「Talk To CSV」にアクセス（簡易チャットルームが作られます）上段の「招待URLをコピー」を押し、URLをクリップボードにコピーします。（招待URLは起動のだびに毎回変わる事に注意してください）音声通話やビデオ通話の参加者に、そのURLを伝えます。参加者全員にGoogle Chromeで、そのURLを開い
ついにラベル無しで音声認識を実現した Facebook の wav2vec-U を解説【論文速報】
- 4 users
- ja.stateofaiguides.com
- テクノロジー
- 2021/05/28
もじこ - AI音声認識を使った文字起こしエディタ
- 4 users
- mojiko.ai
- テクノロジー
- 2020/02/10
放送局では日々、多くの文字起こしが行われています。文字起こしは地獄です。この地獄に立ち向かうために「もじこ」は作られました。「もじこ」はあなたに寄り添いながら文字起こしのお手伝いをします。
- *あとで読む
FeFETによる機械学習、音声認識の精度は95.9％
- 4 users
- eetimes.itmedia.co.jp
- テクノロジー
- 2022/06/15
東京大学は、強誘電体トランジスタ（FeFET）を用いた「リザバーコンピューティング」と呼ばれる機械学習方式を開発し、高い精度で音声認識を行うことに成功した。採用したFeEFTは現行の製造プロセスと親和性が高く、LSIの大規模化も比較的容易とみている。 3つの電流成分の時間応答を組み合わせる方式などを採用東京大学は2022年6月、強誘電体トランジスタ（FeFET）を用いたリザバーコンピューティングと呼ばれる機械学習方式を開発し、高い精度で音声認識を行うことに成功したと発表した。採用したFeEFTは現行の製造プロセスと親和性が高く、大規模LSIにも比較的対応が容易とみている。研究グループはこれまで、酸化ハフニウム系強誘電体材料を用いて製造するFeFETを活用したリザバーコンピューティング方式を提案し、その基本動作について確認してきた。ただ、実用化に向けた計算性能の確認や、システム上の課題な
- 人工知能
- 大学
音声認識パワーブースター搭載バックブレーダーを実現する
- 4 users
- www.nicovideo.jp
- エンタメ
- 2022/08/14
「パワーブースターON!!」子供の頃の夢は現実となった製作物：mylist/67556116「いいね」に作った感想音声認識システム：sm40179914独立可動サスペンション自動走行バックブレーダー：sm39830574Twitter：https://twitter.com/NiwakaraAgeBGM（再生順）Chime - Lifelong [NCS Release]，Elektronomia & RUD - Rollercoaster [NCS Release]，RudeLies, Distrion, Alex Skrindo & Axol - Together [NCS Release]，Chime & MDK - Arcade Dwellers [NCS Release]，Everen Maxwell - A Day at Sea [NCS Release
- これはすごい
日本語の音声コーパスCSJでE-Branchformerの音声認識モデルを作って性能を評価する - RevComm Tech Blog
- 4 users
- tech.revcomm.co.jp
- テクノロジー
- 2023/06/21
こんにちは、RevCommでMiiTelの音声解析機能に関する研究開発を担当している石塚です。 2023年1月に開催された国際会議IEEE Workshop on Spoken Language and Technology (SLT) 2022で発表されたE-Branchformer: Branchformer with Enhanced Merging for Speech Recognition (Kim et al., 2023)*1という論文で、音声認識タスクで高い性能を発揮するE-Branchformerという新しい深層学習モデルが提案されました。論文中では英語の音声コーパスを用いて音声認識精度が評価されていますが、日本語についての評価は行われていません。 End-to-end音声処理ツールキットESPnetのversion 202301からこのE-Branchformerが利
巨大な警察官から逃れるゲーム『Militsioner』ゲームプレイ映像公開。音声認識で巨人と会話する奇妙な体験 - AUTOMATON
- 4 users
- automaton-media.com
- アニメとゲーム
- 2021/02/13
インディースタジオTallBoysは2月12日、シュルレアリスム・アドベンチャー『Militsioner』のゲームプレイ映像を新たに公開した。対応プラットフォームはPC（Steam）。リリース時期は今のところ明かされていない。『Militsioner』は一人称視点のアドベンチャーゲームだ。プレイヤーは“大いなる敵”の監視をかいくぐって奇妙な街からの脱出を目指すことになる。大いなる敵とは、すなわち文字どおり「巨人」。主人公が囚われた街には、なぜか身の丈数十メートルはあろうかという巨大な警察官が棲みついている。犯した覚えのない罪で牢獄送りが言い渡されたプレイヤーは、上空からの目線に見張られつつ、街を探索して脱出の糸口をつかまなくてはならないのだ。道を拓くためには身を隠すだけでなく、あえて警察官の注意を引くことが必要な場面も。本作は音声認識機能を搭載しており、プレイヤーは声を発することで警官
- ロシア
- ゲーム
「音声認識」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音声認識』を5月20日（木）に発売
- 4 users
- prtimes.jp
- テクノロジー
- 2021/05/20
インプレスグループでIT関連メディア事業を展開する株式会社インプレス（本社：東京都千代田区、代表取締役社長：小川亨）は、音声認識の基礎から深層学習を用いた最新手法を解説した書籍『Pythonで学ぶ音声認識』を2021年5月20日（木）に発売いたします。 ■音声認識の基礎から深層学習を用いた最新手法までを解説音声認識とは、音声信号から発話内容を認識することで、AIスピーカなどに利用されている技術です。本書は、現在までの音声認識技術の発展経緯を学びながら、深層学習を用いた最新の音声認識システムを実装できるようになることを目的とし、その手法をソースコード付きで丁寧に解説しています。本書は「実際に動くものが作れる」ことを目指して、特定の技術のアルゴリズムと、それを実装するためのソースコードを豊富に紹介する「機械学習実践シリーズ」の2冊目です。2020年8月24日刊行の同シリーズ『Python
- python
- 大学
ユーザーの意図を汲める音声認識！同時に読みや品詞も推定する、ヤフーのEnd-to-End音声認識研究事例
- 4 users
- techblog.yahoo.co.jp
- テクノロジー
- 2021/07/12
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、ヤフー独自の音声認識エンジン「YJVOICE」の研究開発を担当している大町です。こちらのブログでも紹介しているように、ヤフーではEnd-to-End（E2E）音声認識の研究開発に取り組んでいます。今回は、自然言語処理のトップカンファレンスNAACL2021（2021 Annual Conference of the North American Chapter of the Association for Computational Linguistics）で発表した、新しいE2E音声認識の手法を紹介します。より詳しい内容を知りたい方は原論文もご参照ください。既存のE2E音声認識は、ユーザーの発言意図を特定しにくい
- web
ブレインパッド社員が投稿したQiita記事まとめ（2020年1月～5月、Python、Google Cloud Platform、音声認識ほか） - Platinum Data Blog by BrainPad
- 4 users
- blog.brainpad.co.jp
- テクノロジー
- 2020/06/10
2018年1月より、ブレインパッドが始めているQiita Organization。社員が投稿した「Qiita記事まとめ」として、2020年1月～5月の記事をご紹介していきます！こんにちは。広報の中村です。ブレインパッドのデータサイエンティスト・エンジニアが投稿する技術トピックをQiita Organizationにまとめています。 qiita.com このブログを執筆している日時点で167記事が投稿されています！今回は2020年1月～5月に投稿された記事をご紹介します！日付タイトル（リンク）カテゴリ 2020.01.02 Google提供のDataflowテンプレートとJavaScriptの話 JavaScript、Google Cloud Platform、gcp、dataflow、ApacheBeam 2020.01.01 Google Cloud Speech API
- あとで読む
【9/30発売】新登場 Fire TV Stick - Alexa対応音声認識リモコン付属 | ストリーミングメディアプレーヤー - ジャニーズ販売情報
- 4 users
- www.dangosankyodai.com
- エンタメ
- 2020/09/29
新登場 Fire TV Stick - Alexa対応音声認識リモコン付属発売日：2020年9月30日人気のFire TV Stickが前のモデルよりも50%パワフルになって新登場、HDRの鮮明な映像に対応しています。【Amazon】新登場 Fire TV Stick - Alexa対応音声認識リモコン付属【楽天市場】新登場 Fire TV Stick - Alexa対応音声認識リモコン付属我が家には以前のFireTVStickがあります。 Fire TV Stick - Alexa対応音声認識リモコン付属【Amazon】Fire TV Stick - Alexa対応音声認識リモコン付属商品詳細 Fire TV StickをHDMI端子対応のテレビに挿してWi-Fiにつなぐだけで、簡単に映画やビデオをテレビの大画面で楽しむことができます。映画、ドラマ、バラエティ、スポーツ、
【Python】話題の音声認識ツールキット Vosk を試してみた - Qiita
- 4 users
- qiita.com/kama-meshi
- テクノロジー
- 2022/05/19
はじめにこちらの記事はZennにも投稿しています。たまたまTLで見かけたので試してみました。結果から言うとすごく簡単、触っていておもしろかったです。 What is Vosk? 20言語以上に対応した音声認識ツールキット。言語モデルが50MBと軽く、組み込みがしやすいです。1 PythonはもちろんのことNode.jsやJava, C#でも実装可能。ラズパイ/iOS/Android用のビルド、Websocketサーバまで用意されているという準備の良さです。なおM1 Macには非対応です。詳しくは Vosk のリファレンスで。サンプル音声の準備まずは音源の準備をします。フリーの素材がないかと探していたところこえやさんと言うサイトを見つけたので今回はこちらのファイルを拝借。 Voskのページをみると、しれっと以下のような記載があったのでffmpegで変換します。 When us
- techfeed
- Python
HuggingSoundによる音声認識モデルのfine-tuning | 株式会社AI Shift
- 4 users
- www.ai-shift.co.jp
- テクノロジー
- 2022/04/15
こんにちは AIチームの戸田です今回は最近リリースされたHuggingFaceをベースにした音声処理用のツール、HuggingSoundを使って音声認識を試してみます。 HuggingSoundはHuggingFaceが公式に出しているものではなく、リオデジャネイロ大学のJonatas Grosman氏が個人的に開発しているライブラリで、今年に入ってリリースされたばかりの新しいライブラリです。日本語の音声認識モデルはGrosman氏がこのライブラリを使ってCommon Voice、 CSS10、 JSUTをfine-tuningしたものを公開してくれていますが、本記事ではイチからfine-tuningを試してみたいと思いますデータ準備学習に使用するデータは声庭で公開されているデータを利用します。声庭は有志でアノテーションを行っている公開音声データで、利用・修正・再配布が自由なオープ
WhisperとPyannoteを用いた話者分離と音声認識 | Hakky Handbook
- 4 users
- book.st-hakky.com
- テクノロジー
- 2023/03/09
Hakkyでは「データでプロダクトを価値あるものにする」というミッションの元、大規模言語モデルを積極的に活用して記事執筆しております。ビジネスにおけるAI活用のため、Handbookをお役立ていただきましたら幸いです。概要本記事ではWhisperとPyannoteを使った話者分離と音声認識の方法をサンプルコードとともに紹介します。 2022年12月現在、Whisperで話者分離を行うことは難しく、Pyannoteで話者分離した音声に対してWhisperで音声認識を行う手法が主流となっています。本記事ではYoutube動画を上記方法で話者分離と音声認識にかけてみます。なお、本記事は動作環境としてGoogle Colabを想定しています。 from pathlib import Path #@markdown #### **Youtube video** video_url = "htt
- AI
iOS 14で追加された音声認識機能（Sound Recognition）がちょっと怖いらしい「絶対オンにしないな」「不気味すぎるよ」|ガジェット通信 GetNews
- 4 users
- getnews.jp
- テクノロジー
- 2020/06/28
iOS 14 comes with support for Sound Recognition in Accessibility. Your phone can now listen for specific sounds – a baby crying, smoke alarm, water running, etc. – and notify you. Amazing feature for all kinds of users – inclusivity at its best. #WWDC2020 pic.twitter.com/3hIL8JuTyB— Federico Viticci (@viticci) June 23, 2020
- 参考
- 文化
- Apple
HuggingFaceのwav2vecで音声認識をしてみる
- 4 users
- www.yurui-deep-learning.com
- テクノロジー
- 2021/04/05
Wav2Vec 下記の論文で紹介された手法になります。 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations https://arxiv.org/pdf/2006.11477.pdf 大きな特徴は事前学習とファインチューニングのフェーズに分かれており、事前学習ではラベルデータが必要ない。つまり音声データのみでOKという手法になります。ラベルコストをさげて学習できる手法ということで有用な手法になります。下記はモデルの図です。ラベルなしの事前学習部分が重要なので、その部分にフォーカスして説明します。音声データを前処理せずにCNNに入力して、音声データを圧縮して量子化しています。量子化のモジュールではゆらぎを与えるためにギャンブルソフトマックスを採用して、固定的な値を出力しないよう
口パクの顎の動きで音声認識　イヤフォンに後付け可能
- 4 users
- www.itmedia.co.jp
- テクノロジー
- 2021/03/12
Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。米ニューヨーク州立大学ストーニーブルック校、インド工科大学ガンディーナガル校、米カリフォルニア・マーセッド大学、米テキサス大学アーリントン校による研究チームが開発した「JawSense」は、顎（あご）の動きで音声認識する音声コマンド・ウェアラブルデバイスだ。このデバイスは耳に装着し、音声認識をハンズフリーで行う。ヘッドフォンやイヤフォンへの後付けも可能だ。音声入力は、公共の場で使用する場合、機密情報漏えいやプライバシーの侵害の恐れがある。また、ノイズの多い環境では安定して使用できない。研究チームは、これら課題を解決するため、発話時に確実に動作する顎に着目した。今回の研究は、顎を動かす
- Article
Web SpeechRecognition APIを使って、Web フロントで音声認識をする - KAYAC engineers' blog
- 4 users
- techblog.kayac.com
- テクノロジー
- 2023/10/03
面白プロデュース事業部フロントエンジニアのゆうもやです。面白法人カヤックでは、毎月社員が個人で制作したものを発表する「つくっていいとも」という会があります。カヤックの社員は、業務に関係なく自由に制作・試作することで常に新しいアイデアを生み出すことに取り組んでいます。今回は、そんなアイデアのネタになりそうなWeb SpeechRecognition APIのご紹介です。 Web SpeechRecognition API とは？ Web SpeechRecognition APIは、ブラウザで音声認識を行うためのAPIです。ブラウザに標準で実装されているため、サーバーや特別なライブラリをインストールする必要なく、JavaScriptだけで利用することができます。対応状況一部非対応のブラウザはあるものの、ChromeとSafari 14.1以降ではPCとモバイル両対応しているため、
- JavaScript
Facebookが多言語音声認識ディープラーニングモデルをオープンソース化
- 4 users
- www.infoq.com
- テクノロジー
- 2021/04/12
Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...
AI音声認識技術も超高性能に。AI ボイスレコーダー、AutoMemo Sが有能で超便利｜DTMステーション
- 4 users
- www.dtmstation.com
- テクノロジー
- 2022/12/08
A.I.VOICEやvoicepeak、CeVIO AI、VOICEVOX……などなど音声合成技術がどんどん進化し、人間が喋っているのか、機械が喋っているのか、判断が難しいレベルになってきていますが、今回のテーマは喋るほうのではなく、言葉を聴き、理解するほうの技術について。いわゆる音声認識技術ですが、こちらもAIを使う形になり、ここ数年で飛躍的に進化してきています。実際、そのAI音声認識を用いた製品もいくつか登場してきているようですが、その中でも今、非常に注目を集めているのがソースネクストが販売しているAutoMemo SというAIボイスレコーダーです。見た目はコンパクトなICレコーダーであり、ボタンを押せば録音がスタートし、再度ボタンを押すとストップするというシンプルな構造ではありますが、単純に録音するだけでなく、録音中の会話がすべてテキストに自動で変換されるのです。そのAutoMem
最新の音声認識モデル『Whisper』を使ってみたよ
- 4 users
- zenn.dev/stafes_blog
- テクノロジー
- 2022/12/12
昨日は、あひるさんの知らない技術まみれのチームに移動した時に実践したことでした。畑の違う技術や分野に挑戦するときはすごい体力がいりますが、そこに果敢に挑戦して成果を出し続けている姿に日々刺激をもらっています..! 改まして、こんにちは！ @koonagiです。普段はインフラエンジニア兼データエンジニアとしてTerraformを書いたり、CI/CD作ったり、ETL処理書いたりしています。普段とは違うことをしてみようと音声認識モデル『Whisper』をつかってみたので、そのことについて書いてみようと思います。 Whisperとは Whisperってなんなのよというところからですが、最近流行っているChatGPTやGPT-3を開発しているOpenAIが開発している音声認識モデルです。モデルで利用しているトレーニングデータはウェブで収集したデータでなんと68万時間分のデータとなっております
Web会議のリアルタイム文字起こしが無料or低価格でできるサービス3選 - 音声認識ラボ by 東京反訳
- 4 users
- 8089.co.jp
- 世の中
- 2020/10/04
テレワークの導入によりZoomやSkype、Microsoft TeamsといったWeb会議ツールを使った会議や取材なども今は当たり前になってきているが、その際に発言内容をリアルタイムで文字化できると、会話ログの作成や議事録作成のスピードアップや省力化を図れるなど、もっと生産性を向上させることが可能だ。前回は個人の方が開発されたWeb会議での発話をリアルタイムで文字に書き起こせる便利ツールを取り上げたが、今回はサービスとして提供されているもので現在無料あるいは低価格で簡単に利用できる Zoom、Skype、Google Meet、Microsoft Teams等（以下、各種Web会議ツール）で利用できるリアルタイムで文字起こしができるという3点を満たすサービスの中から、3つを選んで紹介する。 ※本内容は、2020年7月13日現在の情報です。 → 情報を更新しました。本内容は、更新日