[B! prompt][音声] sh19910711のブックマーク

sh19910711 id:sh19910711

promptと音声に関するsh19910711のブックマーク (1)

Gemini API でラジオ番組の音声からの文字起こしを試す｜npaka
「Gemini API」でラジオ番組の音声からの文字起こしを試したので、まとめました。 1. Gemini 1.5 Pro の音声データ入力「Gemini 1.5 Pro」で音声データでの入力が可能になりました。サポートしているファイル形式は、次のとおりです。・MIMEタイプの制限・WAV - audio/wav ・MP3 - audio/mp3 ・AIFF - audio/aiff ・AAC - audio/aac ・OGG Vorbis - audio/ogg ・FLAC - audio/flac ・1プロンプトでの音声データの最大長は 9.5 時間。・1プロンプト内の音声ファイルの数には制限ない。・音声ファイルは16Kbpsのデータ解像度までリサンプリングされ、複数のオーディオチャネルは1チャネルに結合される。 2. ラジオ番組の音声の準備今回は、「Claude 3」と
sh19910711 2024/04/15
"Gemini 1.5 Pro: 1プロンプトでの音声データの最大長は9.5時間 + 音声ファイルの数には制限ない / 音声の準備: 「Claude 3」に台本を書いてもらう + 「VOICEVOX」に読み上げてもらう"

*program

prompt

音声
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx