タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

promptと音声に関するsh19910711のブックマーク (1)

  • Gemini API でラジオ番組の音声からの文字起こしを試す|npaka

    「Gemini API」でラジオ番組の音声からの文字起こしを試したので、まとめました。 1. Gemini 1.5 Pro の 音声データ入力「Gemini 1.5 Pro」で音声データでの入力が可能になりました。 サポートしているファイル形式は、次のとおりです。 ・MIMEタイプの制限 ・WAV - audio/wav ・MP3 - audio/mp3AIFF - audio/aiff ・AAC - audio/aac ・OGG Vorbis - audio/ogg ・FLAC - audio/flac ・1プロンプトでの音声データの最大長は 9.5 時間。 ・1プロンプト内の音声ファイルの数には制限ない。 ・音声ファイルは16Kbpsのデータ解像度までリサンプリングされ、複数のオーディオ チャネルは1チャネルに結合される。 2. ラジオ番組の音声の準備今回は、「Claude 3」と

    Gemini API でラジオ番組の音声からの文字起こしを試す|npaka
    sh19910711
    sh19910711 2024/04/15
    "Gemini 1.5 Pro: 1プロンプトでの音声データの最大長は9.5時間 + 音声ファイルの数には制限ない / 音声の準備: 「Claude 3」に台本を書いてもらう + 「VOICEVOX」に読み上げてもらう"
  • 1