![](https://cdn-ak-scissors.b.st-hatena.com/image/square/b48ab8260b97ca36467715c877e00aef0eb871f4/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Faiplus%2Farticles%2F2404%2F12%2Fcover_news040.jpg)
エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント4件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
米Apple、iPhoneのUIを理解するモバイル専用AI言語モデル「Ferret-UI」発表 GPT-4V越えの性能
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless... このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 X: @shiropen2 米Appleに所属する研究者らが発表した論文「Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs」は、iPhoneやAndroidなどのモバイルUI画面をより深く理解し、インタラクションできるように設計されたマルチモーダル大規模言語モデル(MLLM)を提案した研究報告である。 Ferret-UIは、モバイルUIの画面上で、多様な入力形式(点、ボックス、スケッチ)を用いて参照タスク(ウィジェット分類、アイコン認識、OCRなど)を実行し、グラウンディングタスク(ウィジェット検索、
2024/04/12 リンク