エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
WhisperとPyannoteを用いた話者分離と音声認識 | Hakky Handbook
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
WhisperとPyannoteを用いた話者分離と音声認識 | Hakky Handbook
Hakkyでは「データでプロダクトを価値あるものにする」というミッションの元、大規模言語モデルを積極的... Hakkyでは「データでプロダクトを価値あるものにする」というミッションの元、大規模言語モデルを積極的に活用して記事執筆しております。ビジネスにおけるAI活用のため、Handbookをお役立ていただきましたら幸いです。 概要 本記事ではWhisperとPyannoteを使った話者分離と音声認識の方法をサンプルコードとともに紹介します。 2022年12月現在、Whisperで話者分離を行うことは難しく、Pyannoteで話者分離した音声に対してWhisperで音声認識を行う手法が主流となっています。本記事ではYoutube動画を上記方法で話者分離と音声認識にかけてみます。なお、本記事は動作環境としてGoogle Colabを想定しています。 from pathlib import Path #@markdown #### **Youtube video** video_url = "htt