1. イントロ 1-1. 本記事の内容 2024/05/14にOpenAIからGPT-4 omniなるモデルが発表された 動画・テキスト・音声を解釈できるモデルのため、これを用いて動画の実況ができるかを見てみることにした ※ 執筆(2024/05/15)時点では、音声解釈のAPI受け口は提供されていない 1-2. GPT-4o について クロスモーダルAI 入力:動画/画像・テキスト・音声 出力:動画/画像・テキスト・音声 レイテンシの改善 20言語におけるトークン数の圧縮 テキストやオーディオ翻訳の項目において性能改善 2. 実際に使ってみる 対象動画はyoutube-8Mデータセットの内容を対象とする google colabで実装 LangChainですでにラップされているようなので、langchain==0.1.20を利用 2-1. セットアップ インストール ! pip inst
