「OpenAI」の 記事「Speech to text」が面白かったので、軽くまとめました。 1. Whisper API「OpenAI API」の「Whisper API」 (Speech to Text API) は、最先端のオープンソース「whisper-large-v2」をベースに、文字起こしと翻訳の2つのエンドポイントを提供します。 ・音声を文字起こし ・音声を英語に翻訳して文字起こし ファイルサイズは最大25MBで、以下のファイル形式をサポートしています。 mp3, mp4, mpeg, mpga, m4a, wav, webm 2. 使用料金使用料金は、以下で確認できます。 3. 音声を文字起こしGoogle Colabでの実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install openai(2) 環境変数の準