こんにちは! 虎の穴ラボのA.Mです。 この記事は夏の連載企画の10日目の記事です。 前回はS.Aさんによる「GPT-4o の画像解析でレシートを読み取る bot を作ってみた」が投稿されました。 OpenAIのChatGPTは普段からよく使っていますが、昨年末から話題になっているGoogleの生成AIであるGeminiはまだ触ったことがなかったので、今回はGeminiのAPIをいろいろ触ってみたいと思います。 Geminiについて Geminiは、Googleが開発しているマルチモーダル生成AIです。 マルチモーダルは、複数の形式や手段を組み合わせることを意味しており、Geminiは入力にテキストデータだけでなく、画像・音声・動画といった異なる種類のデータを組み合わせて使用できるという特徴があります。 Gemini APIで使えるモデル Gemini APIでは、以下のようなさまざまなモ