米Apple、iPhoneのUIを理解するモバイル専用AI言語モデル「Ferret-UI」発表　GPT-4V越えの性能

テクノロジーカテゴリーの変更を依頼記事元:

www.itmedia.co.jp

37 usersがブックマークコメント

記事へのコメント4件

注目コメント
新着コメント

nezuku VoiceOverやスイッチなどのアクセシビリティ機能はUI構造の情報得て動いているだろうけれども、こちらは画面内のメタデータではなく、見えている画面の内容からUIを理解できるってことなのかな。

2024/04/12 リンク

eagleyama 特化型増える

2024/04/12 リンク

misshiki “iPhoneやAndroidなどのモバイルUI画面をより深く理解し、インタラクションできるように設計されたマルチモーダル大規模言語モデル（MLLM）を提案した研究報告”

2024/04/12 リンク

Seamless アップルのMLLM「Ferret」を基盤にしたモバイル用AIモデルでスマホUIの参照,位置特定,推論タスク等を実行。iPhone,Androidで実験した結果,他のMLLMやGPT-4Vより高い性能を示した

2024/04/12 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

米Apple、iPhoneのUIを理解するモバイル専用AI言語モデル「Ferret-UI」発表　GPT-4V越えの性能

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless... このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 X：＠shiropen2 米Appleに所属する研究者らが発表した論文「Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs」は、iPhoneやAndroidなどのモバイルUI画面をより深く理解し、インタラクションできるように設計されたマルチモーダル大規模言語モデル（MLLM）を提案した研究報告である。 Ferret-UIは、モバイルUIの画面上で、多様な入力形式（点、ボックス、スケッチ）を用いて参照タスク（ウィジェット分類、アイコン認識、OCRなど）を実行し、グラウンディングタスク（ウィジェット検索、