ブックマーク / note.com/npaka (1)

  • Gemini API でラジオ番組の音声からの文字起こしを試す|npaka

    「Gemini API」でラジオ番組の音声からの文字起こしを試したので、まとめました。 1. Gemini 1.5 Pro の 音声データ入力「Gemini 1.5 Pro」で音声データでの入力が可能になりました。 サポートしているファイル形式は、次のとおりです。 ・MIMEタイプの制限 ・WAV - audio/wav ・MP3 - audio/mp3AIFF - audio/aiff ・AAC - audio/aac ・OGG Vorbis - audio/ogg ・FLAC - audio/flac ・1プロンプトでの音声データの最大長は 9.5 時間。 ・1プロンプト内の音声ファイルの数には制限ない。 ・音声ファイルは16Kbpsのデータ解像度までリサンプリングされ、複数のオーディオ チャネルは1チャネルに結合される。 2. ラジオ番組の音声の準備今回は、「Claude 3」と

    Gemini API でラジオ番組の音声からの文字起こしを試す|npaka
  • 1