Googleは2024年3月19日(米国時間)、ユーザーインタフェース(UI)とインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」を公式ブログで紹介した。 画面UIとインフォグラフィックスは、類似した視覚言語とデザイン原理を共有しており、人間のコミュニケーションや人間と機械のインタラクションにおいて重要な役割を果たしている。だが、複雑さや多様な表現形式から、モデリングにおいてユニークな課題が存在していた。 そこでGoogleは、ScreenAIの研究開発に乗り出した。ScreenAIは、「PaLI」(Pathways Language and Image)アーキテクチャを「pix2struct」の柔軟なパッチ戦略で改良したものだ。データセットとタスクのユニークな組み合わせでトレーニングされている。 PaLIは、視覚入力とテキスト入力に基づいてテキストを生成し、このイン
![UIとインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」 Googleが開発](https://cdn-ak-scissors.b.st-hatena.com/image/square/612beba6c7d15a245b54d6c55c5b410fe1872eca/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fait%2Farticles%2F2404%2F02%2Fcover_news035.jpg)