「OpenAI」の 記事「Speech to text」が面白かったので、軽くまとめました。 1. Whisper API「OpenAI API」の「Whisper API」 (Speech to Text API) は、最先端のオープンソース「whisper-large-v2」をベースに、文字起こしと翻訳の2つのエンドポイントを提供します。 ・音声を文字起こし ・音声を英語に翻訳して文字起こし ファイルサイズは最大25MBで、以下のファイル形式をサポートしています。 mp3, mp4, mpeg, mpga, m4a, wav, webm 2. 使用料金使用料金は、以下で確認できます。 3. 音声を文字起こしGoogle Colabでの実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install openai(2) 環境変数の準
![OpenAI API の Whisper API の使い方|npaka](https://cdn-ak-scissors.b.st-hatena.com/image/square/4e5e92658e38b1d003c963048146fa7651ebb2a8/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F99261991%2Frectangle_large_type_2_4d91c96a3787ef8ecec507a5c08e2fdb.png%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)