サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
パリ五輪
qiita.com/sayo0127
音声認識の世界では、OpenAIが開発したwhisperというモデルが話題になりましたね。99言語に対応しており、日本語の音声認識の精度も抜群です。 非常に優秀なwhisperですが、いつ誰が話したのかを認識する、いわゆる「話者分離」はできません…。 ということで、アドベントカレンダー8日目の記事では、pyannote.audioというライブラリを使った話者分離方法について紹介します。 pyannote.audioの概要 pyannote.audioは、話者分離のためのPythonによるオープンソースフレームワークです。 下記のようなパイプラインで話者分離を実現しています。 論文:pyannote.audio: neural building blocks for speaker diarization Github:https://github.com/pyannote/pyannote
このページを最初にブックマークしてみませんか?
『qiita.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く