2024年5月21日に開催されたイベントで発表した内容です。GPT-4oのマルチモーダル機能を、iOSからAPIをたたいて試してみた、という話。 リアルタイムにGPT-4oに動画を理解してもらうアプリを実装し、デモも行いました: またデモ・各種サンプルコードは以下で公開しています。 スライド・発表動画 スライドはこちら: 発表動画 [1] がこちら: 以下、発表資料を記事として再構成したものになります。登壇後に調査した内容も追記しています。 GPT-4oと「マルチモーダル」 GPT-4oのモダリティ 2024.5.13 GPT-4o発表 Hello GPT-4o | OpenAI の1行目: We’re announcing GPT-4o, our new flagship model that can reason across audio, vision, and text in re