Ivan CheungDeveloper Programs Engineer, Google Cloud ※この投稿は米国時間 2023 年 8 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。 もし大規模言語モデル(Large Language Models; LLMs)が、画像を理解する能力をもっていたらどうでしょうか。チャットボットやテキストデータにおいて、今まさに私たちは LLM の革新を体験しています。このイノベーションと同じように、今後 LLM が企業内 IT システムの何百万もの画像を整理し、ビジネスに大きな影響を与えることになるでしょう。この記事では、大規模ビジョン言語モデル(Vision Language Model; VLM)がどのように機能し、この先数年でビジネスにどのような変化をもたらすかを見ていきます。 詳細に入る前に、ライブデモで