生成AI大手OpenAIは5月13日(現地時間)、文字、音声、映像の入力からリアルタイムに推論ができて、まるで人間相手のように自然に会話できる最上位のLLM「GPT-4o(オー)」を発表した。今後数週間以内にChatGPTで使えるようになる。無料ユーザーも回数制限つきで利用できる。有料ユーザーは無料ユーザーの最大5倍利用可能。oは“オムニ”の略。 推論性能は他社モデルと比べてもトップクラス。音声入力の応答時間は最速232ミリ秒で、会話中の人間の応答時間と似ているという。APIとしては、旧来のモデルである「GPT-4 Turbo」に比べても処理が2倍早く、さらに料金が50%安く、レート制限は5倍になる。 文字、映像、音声を含むすべての入力と出力を、同じニューラルネットワークが処理する仕組みになっているのが特徴。旧来モデルのGPT-4より情報の損失が少なく、声のトーン、複数の話者、背景音なども