近年では画像生成や人間との対話などの特定分野で優れた能力を発揮するAIが注目を集めていますが、一部のAI開発者は人間のように言語や視覚、聴覚などさまざまな情報をまとめて処理できる「Artificial General Intelligence(AGI)/汎用(はんよう)人工知能」の開発を目標としています。新たにMicrosoftが、言語処理だけでなく画像や視覚的なコンテンツの認識にも優れ、図形を用いたIQテストにも回答できるマルチモーダルなAI「Kosmos-1」を発表しました。 [2302.14045] Language Is Not All You Need: Aligning Perception with Language Models https://doi.org/10.48550/arXiv.2302.14045 Microsoft introduces Kosmos-1,
![文章だけでなく視覚的なコンテンツも理解してIQクイズに答えられるAI「Kosmos-1」をMicrosoftが発表、汎用人工知能の開発に前進](https://cdn-ak-scissors.b.st-hatena.com/image/square/2e84f804c27db3453d96b81403fc334224bbcaf0/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2023%2F03%2F02%2Fmicrosoft-kosmos-1-ai-visual-perception%2F00.jpg)