macro1597のブックマーク / 2024年4月4日

UIとインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」　Googleが開発

Googleは2024年3月19日（米国時間）、ユーザーインタフェース（UI）とインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」を公式ブログで紹介した。画面UIとインフォグラフィックスは、類似した視覚言語とデザイン原理を共有しており、人間のコミュニケーションや人間と機械のインタラクションにおいて重要な役割を果たしている。だが、複雑さや多様な表現形式から、モデリングにおいてユニークな課題が存在していた。そこでGoogleは、ScreenAIの研究開発に乗り出した。ScreenAIは、「PaLI」（Pathways Language and Image）アーキテクチャを「pix2struct」の柔軟なパッチ戦略で改良したものだ。データセットとタスクのユニークな組み合わせでトレーニングされている。 PaLIは、視覚入力とテキスト入力に基づいてテキストを生成し、このイン

はてなブックマーク

タグ

2024年4月4日のブックマーク (2件)

UIとインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」　Googleが開発

次世代Siri？　Apple、画面内の状況を理解できるAI「ReALM」を論文発表　GPT-4超えとアピール

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

2024年4月4日のブックマーク (2件)

UIとインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」 Googleが開発

次世代Siri？ Apple、画面内の状況を理解できるAI「ReALM」を論文発表 GPT-4超えとアピール

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

UIとインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」　Googleが開発

次世代Siri？　Apple、画面内の状況を理解できるAI「ReALM」を論文発表　GPT-4超えとアピール