はじめに ようやくローカル環境でのリアルタイム文字起こしがいい感じに動作するようになりましたのでまとめました。 情報漏洩のリスクを排除するために、サーバーへの音声送信を必要としない文字起こしを行います。 また、リアルタイムでの文字起こしが可能ですので、生配信の字幕作成や同時翻訳などの機能も実現できる可能性を秘めています。 注意事項 権利で守られている動画・音声を文字起こしを行い公開することは、権利の侵害に繋がる可能性がありますので十分にご注意ください。 2023年06月21日 2023年06月26日 更新 2023年06月29日 更新 処理概要 マイクから繰り返しオーディオストリームを取得 音声区間検出(VAD)を行い音声と判断できたものを音声バッファに格納 設定した閾値を超える無音区間までを一つの音声バッファとする 音声バッファを文字起こしする faster-whisperとは fast