「Gemini API」でラジオ番組の音声からの文字起こしを試したので、まとめました。 1. Gemini 1.5 Pro の 音声データ入力「Gemini 1.5 Pro」で音声データでの入力が可能になりました。 サポートしているファイル形式は、次のとおりです。 ・MIMEタイプの制限 ・WAV - audio/wav ・MP3 - audio/mp3 ・AIFF - audio/aiff ・AAC - audio/aac ・OGG Vorbis - audio/ogg ・FLAC - audio/flac ・1プロンプトでの音声データの最大長は 9.5 時間。 ・1プロンプト内の音声ファイルの数には制限ない。 ・音声ファイルは16Kbpsのデータ解像度までリサンプリングされ、複数のオーディオ チャネルは1チャネルに結合される。 2. ラジオ番組の音声の準備今回は、「Claude 3」と
![Gemini API でラジオ番組の音声からの文字起こしを試す|npaka](https://cdn-ak-scissors.b.st-hatena.com/image/square/afcfe0d74e0578f1621218d06ae4bc9ed2ce1b7a/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F136948747%2Frectangle_large_type_2_bac764998e5158482e756da3195a6236.png%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)