Appleの研究者が、スマートフォンのアプリUIを理解するために設計したマルチモーダル大規模言語モデル(MLLM)の「Ferret-UI」を開発したという論文を、未査読論文リポジトリであるarXivで公開しました。 [2404.05719] Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs https://arxiv.org/abs/2404.05719 Apple teaching an AI system to use apps; maybe for advanced Siri https://9to5mac.com/2024/04/09/ferret-ui-advanced-siri/ ChatGPTのようなチャットボットAIシステムのベースとなっている大規模言語モデル(LLM)は、主にウェブサイトから収
![Appleがスマホの画面を認識できるマルチモーダルLLM「Ferret-UI」を発表、SiriがiPhoneアプリのUIを理解できるようになる可能性も](https://cdn-ak-scissors.b.st-hatena.com/image/square/e422ba85d08e1b8e85b027fb02c6c76196a06211/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2024%2F04%2F10%2Fferret-ui-apple-multimodal-llm%2F00_m.png)