Microsoftやウィスコンシン大学マディソン校などの研究チームが開発し、2023年4月17日に公開した「LLaVA」は「視覚」を持つAIで、画像を入力するとその画像に基づいて返答を行うことができます。2023年10月5日に登場したLLaVA-1.5はさらにクオリティが向上しているとのことなので、実際にGoogleのクラウドコンピューティングサービス「Google Cloud Platform(GCP)」上で動作させてみました。 LLaVA/pyproject.toml at main · haotian-liu/LLaVA https://github.com/haotian-liu/LLaVA 2023年4月にリリースされた旧バージョンの性能や、デモサイトの使い方については下記の記事で確認できます。 画像を認識して年齢推測可能&人名クイズにも正答できる無料の高性能チャットAI「LLa