GPT-4o テキスト、オーディオ、ビデオの入力を扱い、テキスト、オーディオ、イメージの出力が可能。 GPT-4o以前では、ChatGPTのボイスモードが3つの異なるモデルを使用していた。 GPT-4oはこれらの機能を一つのモデルに統合し、テキスト、ビジュアル、オーディオの各入力を同一のニューラルネットワークで処理する。 現在のAPIの能力 現在のAPIは、テキスト、イメージの入力とテキストの出力をサポート 追加のモダリティ(例えばオーディオ)は現時点(2024/5/14)では使えない。近日導入される予定 Colaboratoryで動かしてみる インストール