[B! 音声] sh19910711のブックマーク

mlxのwhisperでリアルタイム文字起こしを試してみる - Qiita

Whisperでのリアルタイム文字起こしの手法は「Whisperを使ったリアルタイム音声認識と字幕描画方法の紹介」を参考にした。 mlxのwhisperセットアップは前回の記事を参考ください。本題ストリーミング処理を行うには音声の無音検知が必要となるので調べたところ、faster-whisperでもVAD(Voice Activity Detector)にSilero VADを使っている。それのJS版であるricky0123/vadで書かれているコードがあったのでmlx用に一部書き直して試してみた。ファイル構成 import os import time from flask import Flask, request, render_template import whisper import threading UPLOAD_FOLDER = 'uploads' ALLOWED

sh19910711 2024/05/27

"ストリーミング処理を行うには音声の無音検知が必要 / 結構いい感じにかつシンプルなコードで作れることがわかった / mlxもv0.10.0で少し速くなった + 手元のM1 Macはメモリ8GBなのでlarge-v3を読み込むとスワップしまくり"

リンク

Faster WhisperとAWS SageMakerを活用してGPUでの高速文字起こしエンドポイントを構築する

概要最近の音声認識技術の進歩はすごいですね！特にOpenAIの最新モデルであるWhisper large-v3は、日本語の音声データでもかなりの高精度で文字起こしを行うことができ、APIも公開されています。ただし簡単に使用でき汎用性も高い一方で、大量に使用する場合の高コストやプライバシーの懸念もあるため、ローカル環境で効率よく高精度な文字起こしを実現するモデルが多数開発されています。今回は、その中でもGPUを使用した高速推論が可能な「Faster Whisper」を用いて、AWS SageMakerでカスタム文字起こしエンドポイントを構築してみたので、手順を解説していきたいと思います。実装コードは以下のリポジトリにあります。順番通りJupyterNotebookを実行すると問題なく動作するはずです。 Faster Whisperとは Faster WhisperはOpenAIの

sh19910711 2024/05/24

"Faster Whisper: OpenAIのWhisperモデルを基に、翻訳モデル用の高速推論エンジンであるCTranslate2を使用して再実装 / 同等の精度を保ちながらもOpenAIのWhisperよりも最大4倍高速で、メモリ使用量も少ない"

リンク

【音楽情報処理】Sonic Visualiserで音楽データのアノテーション前編：Sonic visualiserの紹介 - Qiita

Sonic visualiserを用いてアノテーションを行う方法の個人的な備忘録と，ラボの後輩がアノテーションに困った時用のとっかかりの記事として．全2記事，前編（本記事）ではSonic visualiserの紹介，後編ではアノテーションの具体的な手順について紹介する予定．音楽音源データの解析タスク（コード識別，メロディ検出，音楽構造解析，自動採譜etc...）を行うには，音源そのものと，正解のラベルが必要です．その正解のラベルを1から作る方法として，アノテーションを行う必要があります．音源に対してアノテーションを行う方法はいくつかあり，タスクによっても異なります．特に，アノテーションが系列データとなる場合は，音源を聴いてラベルを対応する区間に対応づけることが必要となります．この図のような具合です．多くの場合，いちいち耳で聴いてラベルをつけるのではなく，音を可視化するソフト

sh19910711 2024/05/23

"音楽情報処理研究の世界では，Sonic Visualiserというソフトウェアが用いられ / Sonic Visualiser: 音楽分析に特化した様々な可視化・分析 / 可聴化機能: 見ながら＆聴きながらのアノテーションが可能" 2022

リンク

『Phase reconstruction based on recurrent phase unwrapping with deep neural networks』に基づく位相復元手法をPyTorchで実装した - 備忘録

はじめに実装実験音声の分析条件実験結果おわりにはじめに Masuyama氏らによる位相復元手法 "Phase reconstruction based on recurrent phase unwrapping with deep neural networks"が2020年に提案されている． https://ieeexplore.ieee.org/document/9053234 arxiv.org 本手法は，まずDNNで位相の微分（時間方向・周波数方向）を推定し，次に推定した微分に基づいて位相を再帰的に求める（積分する，アンラッピング）という2段階の処理からなる．位相が波形のずれに敏感という問題を回避しつつ，従来のDNNによる位相の直接推定（von Mises DNN）よりも高い精度で位相を推定することができる，というわけである．「位相を再帰的に求める」 recurrent

sh19910711 2024/05/22

"RPU: DNNで位相の微分（時間方向・周波数方向）を推定 + 推定した微分に基づいて位相を再帰的に求める（積分する，アンラッピング） / 位相が波形のずれに敏感という問題を回避" arXiv:2002.05832

リンク

Amazon Connect の通話データの分析結果をバッチ処理で Word 文書にする – Amazon Connect アドベントカレンダー 2022 | DevelopersIO

Amazon Connect の通話データの分析結果をバッチ処理で Word 文書にする – Amazon Connect アドベントカレンダー 2022 こんにちは！森田です。この記事は「Amazon Connect アドベントカレンダー 2022」の15日目の記事となります！ Amazon Connectアドベントカレンダー2022は、クラスメソッドと株式会社ギークフィードさんでチャレンジしている企画となっており、他にもAmazon Connect関する様々な記事がありますのでぜひご参照ください！！この記事では、Amazon Connect の通話データをバッチ処理で分析しその結果を Word 文書にする方法をご紹介します。やりたいこと Amazon Connectの音声データの分析結果を AWS Lambda で Word 文書に変換し、そのファイルパスを Amazon Co

sh19910711 2024/05/02

"Amazon Connectの音声データの分析結果を AWS Lambda で Word 文書に変換 + wavファイルアップロードをトリガー / Amazon Transcribe をAPIとして呼び出す + AWSブログで紹介されていたamazon-transcribe-output-wordを利用" 2022

リンク

Kaggle音コンペで銅メダル獲得したときの手法解説 - Qiita

今年3月頃から機械学習（主にDeepLearning）とKaggleを始め、賞金のあるコンペ「Freesound Audio Tagging 2019（以下FAT2019）」に初めて挑戦しました。やるならばと金メダルを目指していましたが、結果はPrivateLB 89位で銅メダルに落ち着きました。苦労・工夫した点や、参考にした論文、記事、カーネルなども交えてここに記録したいと思います。ちなみに以下が最終提出カーネルです。定数で学習モードと推論モードを切り替えていたので、少し読みづらいですが…。なお、MixMatchなど一部の実装は実験的なもので、最終提出には使っていません。モデルAの学習カーネルモデルBの学習カーネル（A→B 転移学習）モデルBを使った推論カーネルコンペの内容 FAT2019は、環境音データに対して「エンジン音」や「男性の歌声」などのタグを付ける認識モデルを開発

sh19910711 2024/04/29

"環境音データに対して「エンジン音」や「男性の歌声」などのタグを付ける / 周波数軸に対してメルスケール、パワーに対して対数スケールで変換 / 推論時にもデータ水増しすると精度が向上することが知られ" 2019

リンク

機械学習のための音声の特徴量ざっくりメモ (Librosa ,numpy) - Qiita

Introduction この記事は基本的に自分用のメモみたいなもので、かなりあやふやな部分もあります。間違っている部分を指摘していただけると助かります。(やさしくしてね) ネット上にLibrosaの使い方、Pythonによる音声特徴量の抽出の情報が少なかったり、難しい記事ばかりだったので、かなり噛み砕いてメモするつもりでいます。基本的に機械学習に用いられている音声の特徴量について記述していきます。 (2019/8/20)勉強した分だけ載せました、ちょっとずつ更新していきます。 (2019/8/22)MFCCの分だけ更新しました。 (2019/8/23)ZCRについて書きました。紹介する特徴量 MFCC log-mel spectrum HNR ZCR 1.MFCC MFCCとの出会い音声認識に広く使われている特徴量で、だいたいの音声における機械学習の代表的な特徴量ということでだいた

sh19910711 2024/04/29

"MFCC: 人間の声道の特性(人間の声と聴覚の仕組み)をうまく反映している + 人間の低音に敏感で高音に鈍いという特徴を考慮 + この特徴量を使うと非力なマシンで機械学習をできる旨味がある" 2019

リンク

RVCのモデルを日本語向けに事前学習する - Qiita

こんにちは、nadareです。機械学習エンジニアで、普段はレコメンド・検索関連のお仕事をしています。いろんな競技プログラミングが好きです。最近はRetrieval-based-Voice-Conversion(以下RVC)という技術に関心を持ち、本家Retrieval-based-Voice-Conversion-WebUIやddPn08さん版RVC-WebUI、VC ClientにPR投げつつ勉強しています。本記事では、RVCのモデルで綺麗な日本語に変換するための学習テクニックを紹介します。 2023/05/24 追記続・RVCのモデルを日本語向けに事前学習するを公開しました。最新の内容にアップデートしたので、こちらもご参照ください。 2023/05/14 16:20追記これまではITAコーパス読み上げ音声を10~30epoch学習させたもので比較していて、その時点では事前学習

sh19910711 2024/04/27

"RVC: 日本語の発音が日本語の上手い英語話者っぽい感じであるのは、事前学習データに由来 / それぞれ英語のデータセットで学習されているため、日本語で追加学習を行うと英語訛りが出てしまいます" 2023

リンク

Twilio StudioとDialogflowで作るサーバレス自然言語による自動応答電話(IVR)システム～Kintoneでの可視化も添えて～ - ワタナベ書店

タイトル盛りすぎ。ところで「お前が神を殺したいなら、とあなたは言った」が完結しましたね。このブログを読んでる各位はもうすでにお読みでしょうが、念の為に言っておきますと、とても面白いので読みましょう。異世界転生宗教改革ものですよ。陰謀策略政治会話群像劇が好きな人絶対楽しいですよ。なお、この話が好きな方は不朽のフェーネチカも好きだと思うのでぜひ。不朽のフェーネチカ (アフタヌーンコミックス) 作者:竹良実発売日: 2018/07/06メディア: Kindle版まえがき Dialogflow とはGoogle Homeのアプリ作成で使用されている自然言語対話のプラットフォームです。ただし、Dialogflow はGoogle Homeアプリだけに使うわけではなく、APIを用いて直接自然言語対話をリクエストすることができます。よって、Google Homeアプリだけでなく、直接スピ

sh19910711 2024/04/27

"Twilioの音声認識サービスで相手の音声をテキスト化 + テキストをTwilio FunctionにてDialogflowに送信 / かかってきた電話番号と問い合わせ内容が自動で記録 / 1通話5〜10円くらい" 2018

リンク

自作データセットでWhisperをファインチューニングしたら、独自用語だらけのクラロワ実況でも使えるようになった：「データセット作成編」

とりあえず結果 40分くらいの動画で一旦文字起こししてとりあえずファインチューニングしてみた。いったん試しくらいでやったから適当だったが、その学習済みモデルで別動画の推論をした結果以下の結果になったクラロワ実況の一文正解の文章めっちゃしやすくてで迫撃にもアチャクイを当てられるでしょだもうマジで環境でゴレとかにもまあポイズンウッドだから普通に強くてエリポンも別にディガーで潰せると三銃士が来ても勝てるロイホグ系もねゴーストアチャクイゴブリンウッドだからめっちゃ強いんですよ元のWhisperでpredictした文章めっちゃしやすくてで迫撃にもあ着いを当てられるでしょだもうマジで環境で5例とかにもはポイズングッドだから普通に強くてエリポンも別にリガーで潰せると30人が来ても勝てるロイホグ系もねゴーストアチャクイゴブリングッドだからめっちゃ強いんですよ流石にゴレが5例になってたりデ

sh19910711 2024/04/17

"Whisperでも文字起こしが難しい動画を探す方が難易度が高かった / 予めwhisperに読ませておいてそれの間違っているところを修正するやり方だと非常に簡単に正解のテキストデータが作れます" 2023

リンク

Gemini API でラジオ番組の音声からの文字起こしを試す｜npaka

「Gemini API」でラジオ番組の音声からの文字起こしを試したので、まとめました。 1. Gemini 1.5 Pro の音声データ入力「Gemini 1.5 Pro」で音声データでの入力が可能になりました。サポートしているファイル形式は、次のとおりです。・MIMEタイプの制限・WAV - audio/wav ・MP3 - audio/mp3 ・AIFF - audio/aiff ・AAC - audio/aac ・OGG Vorbis - audio/ogg ・FLAC - audio/flac ・1プロンプトでの音声データの最大長は 9.5 時間。・1プロンプト内の音声ファイルの数には制限ない。・音声ファイルは16Kbpsのデータ解像度までリサンプリングされ、複数のオーディオチャネルは1チャネルに結合される。 2. ラジオ番組の音声の準備今回は、「Claude 3」と

sh19910711 2024/04/15

"Gemini 1.5 Pro: 1プロンプトでの音声データの最大長は9.5時間 + 音声ファイルの数には制限ない / 音声の準備: 「Claude 3」に台本を書いてもらう + 「VOICEVOX」に読み上げてもらう"

リンク

Whisperを使ったリアルタイム音声認識と字幕描画方法の紹介 | さくらのナレッジ

OBS WebSocketの設定 OBSのWebSocket機能を有効にします。WebSocket機能は比較的新しい機能で、使ったことがない方も多いと思います。LAN内のコンピュータからOBSの各種プロパティを取得・変更できます。各種プログラミング言語から直接APIを呼べるので、「音声認識の結果を即時に画面に反映する」ような、頻繁に変更される値の更新に適しています。設定方法は、OBSのメニューから「ツール」-「obs-websocket設定」をクリックし、出てきたダイアログの一番上のチェックボックス「WebSocketサーバーを有効にする」をオンにします。そして「パスワードを生成する」を押します。後述のプログラムで定数として使用します。これでWebSocket機能を使用できるようになります。 Pythonのプログラムから字幕変更 PythonのプログラムからOBSにWebSocketで接

sh19910711 2023/03/11

"音声認識の字幕描画: 文の区切り、終わりがわからない / VAD (Voice Activity Detection): 人間の声の区間の始まりと終わりを検出 + ノイズや環境音は無視してくれる / Silero VADをブラウザで動くようにした、ricky0123/VADを"

リンク

coqui-ai/ttsで日本語音声合成を試す - MEMOcho-

いままで音声の生成はやってみたことがないため勉強のためにやってみたのでメモ。目的としてはどういうことを行っているのか理解したいというのと、TTSを学習させてみた場合にどの程度のコストがかかってどのくらいの音声が生成できるのかというのが気になったというのもある。 TTSの学習・推論処理をまとめたrepositoryはいくつかあるが、coqui-ai/ttsを使ってみることにした https://github.com/coqui-ai/TTS 理由としてはやってみた系の記事が上がってるので勉強にちょうどよい https://qiita.com/tset-tset-tset/it ems/7b388b0536fcc774b2ad 新しめのモデルも用意されており学習が比較的短時間でできる可能性があるちなみにcoqui-ai/ttsは、readmeに書いてあることが同じかつ開発者も同じ方なのでm

sh19910711 2022/06/17

2021 / "学習済みモデルに日本語は存在しないが、espeak-ngを用いることで日本語のテキストから発音への変換を行って学習することが可能 / 1 epochにかかる時間として、V100の場合だと2分半程度、T4なら3分半程度"

リンク

AlexaでE2Eテストを書けるようにした話 - クックパッド開発者ブログ

研究開発部の伊尾木です。研究開発部では、Alexaのスキルを公開しています（Google Assistantも公開していますよ！）。今回はAlexaスキルのテストを便利にするKuchimaneというツールを公開したので紹介したいと思います。 E2Eテストが難しい音声UIの開発はまだまだ新しい分野で知見やツールがそろっているわけではありません。特に E2E (End To End) テスト、RSpecでいうところの Feature spec に相当するようなテストを行うことがとても困難でした。 AlexaでのE2Eテスト以下のような一連の会話があったとします。あなた「クックパッドを開いて」 Alexa「クックパッドへようこそ」あなた「大根のレシピを教えて」 Alexa「大根ですね。サラダ、ナムル、スープのどのレシピがいいですか」あなた「スープ」 Alexa「大根のスープですね

sh19910711 2019/06/22

リンク

VoiceUI / VoiceUX デザインことはじめ - Qiita

はじめに長々と書いていますが、VUIのキモはたった一つと言っても過言じゃありません。エラーハンドリングです。エラーの対応ができていないと全てが台無しです。筆記とは違い、老若何女問わず毎日会話していますから、会話だけは人間誰でもプロなんです。話の通じない人と話すのは誰もが嫌がります。普通に指示して、「わかりませんでした」と、これほど失礼なことはありません。せめて、「分かんなかったけれど、こう言ってもらえればわかる」を示して挽回するのです。エラーハンドリングをして、次に何を言って欲しいかきちんと言えば大半のタスクが完了できます。あ。二つだった。 VUIとは Voice User Interface、声で操作するインターフェイスです。今ご覧になっているGraphic UIや、エンジニアの利用するCommand UI、チャットボットのConversational UIとは異なり

sh19910711 2019/01/21

“VUIのデザインは、『目隠しをして、知らない人にタスクを達成するために必要な案内をしてもらうためのデザイン』に近いと思います。”

リンク

漫画の吹き出しをリアルタイムに表示してみた

NFC (9) Arduino (13) Kinect (5) Craft (6) App (1) Windows Phone (1) Flash (4) Gainer (1) HTML5 (14) Physical Computing (5) Windows8 (4) memo (32) Award (26) Bluetooth (4) Connective Design (2) DIGITAL DIVERZ (3) DIGITAL FRAGMENTS (8) DeepLearning (2) Device (8) FirefoxOS (2) Hack (3) LINE Creators Market (1) MachineLearning (3) Mixed Reality (1) Multi Screen (1) NUI (2) Node.js (14) PerC (1) SXSW