タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

browserとllmとagenticに関するflatbirdのブックマーク (4)

  • OpenAI Operator についてまとめる|ぬこぬこ

    tl;drブラウザ操作のできる Operator が OpenAI から公開されたよ 米国の ChatGPT Pro を課金していないと使えないよ(日はまだ) API は数週間以内に公開予定だよ ベンチマーク性能は高いけど、WebVoyager だと Browser Use に及ばないよ 安全性を意図してポリシーや制限が厳しいので要確認だよ 朝起きて、おおお!おもしろいの出とるやん!と思い、短く下記のポストにまとめたのですが、さすがにもう少し書いた方が優しいかなと思い記事を書きます。ただし、tl;dr で書いたように日ではまだ使えないので驚くことはせず、淡々と機能と可能性と制限についてのみ言及します。 https://t.co/NiJ397gdfd OpenAI Operator ブラウザを操作してタスクを実行する AI エージェント。米国の ChatGPT Pro 課金者向けに公開(

    OpenAI Operator についてまとめる|ぬこぬこ
    flatbird
    flatbird 2025/01/27
    Browser Use が WebVoyager で 89% であったのに対して Operator が 87% と、同等性能ではあるものの最高性能ではありませんでした。このあたりがブラウザタスクの飽和点なのでしょうか。
  • Operator の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Introducing Operator 1. Operator「Operator」は、Webにアクセスしてユーザーに代わってタスクを実行できるエージェントです。独自のブラウザを使用して、Webページを参照し、入力、クリック、スクロールすることで操作できます。現在は研究プレビューであるため制限があり、ユーザーからのフィードバックに基づいて進化します。 「Operator」は、フォームへの記入、料品の注文、ミームの作成など、さまざまな反復的なブラウザタスクを処理するよう要求できます。人間が日常的に使用するのと同じインターフェイスとツールを使用できることで、AIの有用性が広がり、人々が日常のタスクに費やす時間を節約できると同時に、企業にとって新たなエンゲージメントの機会が生まれます。 安全かつ段階的な展開を確実にするために、小規模から開始し

    Operator の概要|npaka
    flatbird
    flatbird 2025/01/27
    Computer-Using Agent (CUA)」という新しいモデルを搭載/GPT-4oの視覚機能と強化学習による推論を使用/GUIを操作する能力を持ち、カスタムAPI統合不要でWeb上でアクションを実行/「CUA」をAPIで公開予定
  • GoogleがAIでChromeを自動操作できる「Project Mariner」を発表

    Googleが現地時間2024年12月11日に、ブラウザ上の情報を理解して自動操作できるAI「Project Mariner」を発表しました。Project Marinerを使えば「スプレッドシートにまとめた企業名をもとに各企業のメールアドレスを検索してまとめる」といった複雑な操作を自動で実行できます。 Project Mariner - Google DeepMind https://deepmind.google/technologies/project-mariner/ Google introduces Gemini 2.0: A new AI model for the agentic era https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/ What cou

    GoogleがAIでChromeを自動操作できる「Project Mariner」を発表
  • LLMとコンピュータビジョンでブラウザベースのワークフローを自動化できる「Skyvern」を使ってみた、コードと違ってウェブサイトが変わる度に書き直す必要無し

    SkyvernはテキストでAIに指示することでブラウザを使用するワークフローを自動化してくれるツールです。コードで自動化する場合と異なり、多少ウェブサイトの構造が変わっても問題なく対応可能なのが特徴です。有料のサービスであるものの、記事作成時点ではアカウントを作成すると5ドル(約770円)分のクレジットが付与されるとのことだったので、実際に使い勝手を確かめてみました。 Skyvern - Automate Browser-Based Workflows with AI https://www.skyvern.com/ GitHub - Skyvern-AI/skyvern: Automate browser-based workflows with LLMs and Computer Vision https://github.com/Skyvern-AI/Skyvern Skyvernは

    LLMとコンピュータビジョンでブラウザベースのワークフローを自動化できる「Skyvern」を使ってみた、コードと違ってウェブサイトが変わる度に書き直す必要無し
  • 1