2023年9月25日にリリースされた新たな機能で、ChatGPTがついに、目と声を手に入れました。 具体的には、画像解析機能と音声出力機能のAPI「GPT-4V」が追加され、マルチモーダルAIになったとのこと。 要するに、ChatGPTで画像入力と音声出力ができるようになり、今までよりさらに便利になったということですね! 今回はそのGPT-4Vの概要や新機能について、特徴を踏まえながら詳しくご紹介します。ぜひ最後までご覧ください! GPT4Vの概要 GPT-4V(Vision)は、Open AI社が開発した従来のGPT-4に画像解析機能と音声出力機能を持たせたマルチモーダルAIです。マルチモーダルAIとは、複数のデータをもとに情報を集めて、解析・出力を可能とするAIのことです。 つまりGPT-4を搭載したChatGPTに「目」と「声」が実装されたことで、画像・音声・テキストという異なる情報