グーグルは12月6日(現地時間)、高性能AIファウンデーションモデル「Gemini(ジェミナイ)」を発表した。各種ベンチマークにおいてGPT-4を上回る成績を記録。Google検索やチャットAIの「Bard」などグーグルの各種サービスに順次利用されていくほか、12月13日より開発者にもAPI経由で公開される。 ネイティブでマルチモーダルを実現 マルチモーダル(異なる入力形式を同時に扱うこと)なAIとしてゼロから構築されたGeminiは、テキスト、画像、音声、動画、プログラムコードなど、さまざまな種類の情報をシームレスに理解し、操作し、組み合わせることができる。 これまでのマルチモーダルモデルは、画像認識、音声認識など、異なるデータを扱う個別のコンポーネントをつなぎ合わせたアプローチなので、画像の説明などの特定のタスクの実行には優れているが、概念的で複雑な推論に苦労することがあった。 You
![グーグルが完全に本気! 究極のマルチモーダルAIモデル「Gemini」登場!](https://cdn-ak-scissors.b.st-hatena.com/image/square/abdf2931893212619273ac2445f3328956ed81f3/height=288;version=1;width=512/https%3A%2F%2Fascii.jp%2Fimg%2F2023%2F12%2F07%2F3651649%2Fxl%2F6fb5a60571038bb2.png%3F20200122)