音声認識の世界では、OpenAIが開発したwhisperというモデルが話題になりましたね。99言語に対応しており、日本語の音声認識の精度も抜群です。 非常に優秀なwhisperですが、いつ誰が話したのかを認識する、いわゆる「話者分離」はできません…。 ということで、アドベントカレンダー8日目の記事では、pyannote.audioというライブラリを使った話者分離方法について紹介します。 pyannote.audioの概要 pyannote.audioは、話者分離のためのPythonによるオープンソースフレームワークです。 下記のようなパイプラインで話者分離を実現しています。 論文:pyannote.audio: neural building blocks for speaker diarization Github:https://github.com/pyannote/pyannote