こんにちは!逆瀬川 (https://twitter.com/gyakuse)です! 今日は議事録の音声からの書き出しとサマリの自動生成を行います。 概要 会議音声(wavとかmp3ファイル)からWhisperを用いて書き出しを行い、GPT-3.5でサマリを自動生成します。 会議音声としていますが、べつにどんな音声でも大丈夫です。 Colab whisper.cpp版(処理に動画秒数×10倍程度の時間がかかりますがGPU不要です) whisper.fp16版(処理は動画秒数/4程度の時間で済みますがGPU必須です) 使い方 OpenAIのAPIキーを貼り付け ランタイム > すべてのセルを実行から実行し、最初の処理の下に出てくるファイル選択で録音ファイルを選択します ひたすら待ちます 実装 Whisperの軽量化 Whisperの軽量化としては、cpp実装のwhisper.cppがあります