2024年4月4日のブックマーク (2件)

  • UIとインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」 Googleが開発

    Googleは2024年3月19日(米国時間)、ユーザーインタフェース(UI)とインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」を公式ブログで紹介した。 画面UIとインフォグラフィックスは、類似した視覚言語とデザイン原理を共有しており、人間のコミュニケーションや人間と機械のインタラクションにおいて重要な役割を果たしている。だが、複雑さや多様な表現形式から、モデリングにおいてユニークな課題が存在していた。 そこでGoogleは、ScreenAIの研究開発に乗り出した。ScreenAIは、「PaLI」(Pathways Language and Image)アーキテクチャを「pix2struct」の柔軟なパッチ戦略で改良したものだ。データセットとタスクのユニークな組み合わせでトレーニングされている。 PaLIは、視覚入力とテキスト入力に基づいてテキストを生成し、このイン

    UIとインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」 Googleが開発
    macro1597
    macro1597 2024/04/04
  • 次世代Siri? Apple、画面内の状況を理解できるAI「ReALM」を論文発表 GPT-4超えとアピール

    AppleMachine Learning Researchが、論文投稿サイト「arXiv」において「ReALM: Reference Resolution As Language Modeling」を発表した。ReALMは、画面上の物体への曖昧な言及や、会話での背景の文脈を理解し、音声アシスタントより自然なやりとりを可能にする新たな人工知能システムだという。 ReALMの最小のモデルでは、画面上の参照において5%以上の絶対的な改善を得ることができたという。また、GPT-3.5とGPT-4に対するベンチマークを行い、ReALMの最小モデルはGPT-4と同等の性能を達成し、ReALMの大型モデルはGPT-4を大幅に上回る性能を達成したと説明する。 Appleは、会話アシスタントには、参照を含むコンテキストを理解できることが不可欠だと説明していて、ユーザーが画面に表示されている内容について

    次世代Siri? Apple、画面内の状況を理解できるAI「ReALM」を論文発表 GPT-4超えとアピール
    macro1597
    macro1597 2024/04/04
    人間の知覚は視覚情報に頼っている割合が大きいので、それを踏まえるとAppleのAIは画像理解に長けていて軽量だから後々追い上げてきそう。