並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 62件

新着順 人気順

browser use gemini githubの検索結果1 - 40 件 / 62件

  • これはもう実質AGIでは? AIが勝手にブラウザを操作していろいろやってくれちゃう BrowserUseが爆誕|shi3z

    今日もいつものようにシラスでデイリーAIニュースを配信していると、とんでもないものにでくわした。 もうタイトルに書いてあるけど、AIが勝手にブラウザを操作して色々やってくれてしまう、その名もBrowserUseだ。 インストールは超簡単。 macなら以下の二行だけだ。 $ pip install browser-use $ playwright install使うのも超簡単だが、コマンドラインに落ちるのが怖い人々には簡単に見えないかもしれない。環境変数のOPENAI_API_KEYとかにAPIキーを入れておくこと。 $ python >>> from langchain_openai import ChatOpenAI >>> from browser_use import Agent INFO [browser_use] BrowserUse logging setup complete

      これはもう実質AGIでは? AIが勝手にブラウザを操作していろいろやってくれちゃう BrowserUseが爆誕|shi3z
    • Browser Useを用いたブラウザ操作の自動化AIエージェント | DevelopersIO

      python 01agent.py INFO [browser_use] BrowserUse logging setup complete with level info INFO [root] Anonymized telemetry enabled. See https://github.com/gregpr07/browser-use for more information. INFO [agent] 🚀 Starting task: 今日の運勢について教えて INFO [agent] 📍 Step 1 INFO [agent] 🤷 Eval: Unknown - No prior goal was set. INFO [agent] 🧠 Memory: No actions have been taken yet. Current task is to find tod

        Browser Useを用いたブラウザ操作の自動化AIエージェント | DevelopersIO
      • AI で再注目された技術やツールたち - ぽ靴な缶

        これは はてなエンジニア Advent Calendar 2025 2 日目の記事です。 年の瀬なので振り返りたくなる季節ですね。 今年も AI の話題が非常に多く、コーディングエージェントの普及を始めいろんな変化がありました。新しいモデル、高まる精度、飛び交うビッグマネー、跳ね回る驚き達。そういう景気の良い話はさておき、既存の技術が新しい文脈で再注目されたり、思わぬ用途で広く使われるようになったりすることも起きています。 今日はそんな「以前から存在していたけど AI によって新しい価値を見出された技術やツールを語ろう」のコーナーです。 いくぞ!! Server-Sent Events (SSE) まず出世頭として思いつくのは Server-Sent Events でしょう。 Server-sent events - Web API | MDN 今やチャット AI のレスポンスはほとんど

          AI で再注目された技術やツールたち - ぽ靴な缶
        • Firebase Studio

          Get to work quickly wherever you areGo from opening your browser to building in minutes, not hours. Import your existing repositories from GitHub, GitLab, Bitbucket, or your local machine, with support for most tech stacks. Or use the App Prototyping agent to quickly create a new application using natural language, mockups, drawing tools, and screenshots, or select from a large catalog of popular

            Firebase Studio
          • You Need to Rewrite Your CLI for AI Agents

            npx skills install jpoehnelt/skills/agent-dx-cli-scale Human DX optimizes for discoverability and forgiveness. Agent DX optimizes for predictability and defense-in-depth. These are different enough that retrofitting a human-first CLI for agents is a losing bet. I built a CLI for Google Workspace — agents first. Not “built a CLI, then noticed agents were using it.” From Day One, the design assumpti

              You Need to Rewrite Your CLI for AI Agents
            • Coding Agentについてのまとめ (2026年1月)

              LLMによるコード補完の登場 (2021年) GitHub Copilotの登場 我々がよく知るLLMによる支援はまず GitHub Copilot から始まりました。これはGPT-3 (OpenAI Codex, 現在のCodexと名前が同じで本当にややこしい) をベースとしたコード補完システムで、タイピングをしていると自動的にその行の続きを予測してくれるものです autocompleteとの違い それ以前にもIntelliSenseのようなautocompleteがありましたし、より進歩したn-gramなどを用いたものはありましたが、LLMをベースとしたものはTabnine (Tabnineは初期はn-gramモデル) やCopilotからとなります チャットベースのコードアシストの時代 (2022-2023年) ChatGPTの登場 ChatGPT以降、チャットによる対話形式でコード

                Coding Agentについてのまとめ (2026年1月)
              • GitHub - modelcontextprotocol/servers: Model Context Protocol Servers

                Official integrations are maintained by companies building production ready MCP servers for their platforms. 21st.dev Magic - Create crafted UI components inspired by the best 21st.dev design engineers. 2slides - An MCP server that provides tools to convert content into slides/PPT/presentation or generate slides/PPT/presentation with user intention. ActionKit by Paragon - Connect to 130+ SaaS inte

                  GitHub - modelcontextprotocol/servers: Model Context Protocol Servers
                • ClineとRoo Codeで何が違うのか

                  本日Plusプランに落ちてきたDeep Searchを使って、早速ClineとRoo Codeの違いを調べて貰いました。 Deep Searchが結構しっかりとした所まで調べてくれたので、以下の転記します。 今のところ(2025/2/26)時点では、Roo Codeを使っておいた方が恩恵がありそうです。 以下転記。 1. 機能の違い ClineもRoo Codeも、VSCode内で動作するAIコーディングエージェントであり、自然言語の指示からコードの生成や編集を行う点は共通しています ( Cline - Visual Studio Marketplace ) ( Roo Code (prev. Roo Cline) - Visual Studio Marketplace )。しかし、いくつかの機能面で違いがあります。 共通機能: 両者ともプロジェクト全体を解析し、ファイルを読み書きしたり、

                    ClineとRoo Codeで何が違うのか
                  • 2025: The year in LLMs

                    31st December 2025 This is the third in my annual series reviewing everything that happened in the LLM space over the past 12 months. For previous years see Stuff we figured out about AI in 2023 and Things we learned about LLMs in 2024. It’s been a year filled with a lot of different trends. The year of “reasoning” The year of agents The year of coding agents and Claude Code The year of LLMs on th

                      2025: The year in LLMs
                    • Things we learned about LLMs in 2024

                      31st December 2024 A lot has happened in the world of Large Language Models over the course of 2024. Here’s a review of things we figured out about the field in the past twelve months, plus my attempt at identifying key themes and pivotal moments. This is a sequel to my review of 2023. In this article: The GPT-4 barrier was comprehensively broken Some of those GPT-4 models run on my laptop LLM pri

                        Things we learned about LLMs in 2024
                      • Qwen3-Coder: Agentic Coding in the World

                        July 22, 2025 · 5 min · 1000 words · Qwen Team | Translations:简体中文 GITHUB HUGGING FACE MODELSCOPE DISCORD Today, we’re announcing Qwen3-Coder, our most agentic code model to date. Qwen3-Coder is available in multiple sizes, but we’re excited to introduce its most powerful variant first: Qwen3-Coder-480B-A35B-Instruct — a 480B-parameter Mixture-of-Experts model with 35B active parameters which supp

                        • GitHub - punkpeye/awesome-mcp-servers: A collection of MCP servers.

                          Servers for accessing many apps and tools through a single MCP server. 1mcp/agent 📇 ☁️ 🏠 🍎 🪟 🐧 - A unified Model Context Protocol server implementation that aggregates multiple MCP servers into one. tadas-github/a2asearch-mcp 📇 ☁️ - MCP server to search 4,800+ MCP servers, AI agents, CLI tools and agent skills. Install: npx -y a2asearch-mcp. Ask Claude: "Find MCP servers for database access"

                            GitHub - punkpeye/awesome-mcp-servers: A collection of MCP servers.
                          • GitHub - PleasePrompto/notebooklm-skill: Use this skill to enable Claude Code to communicate directly with your Google NotebookLM notebooks. Query your uploaded documents and get source-grounded, citation-backed answers from Gemini. Features browser autom

                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                              GitHub - PleasePrompto/notebooklm-skill: Use this skill to enable Claude Code to communicate directly with your Google NotebookLM notebooks. Query your uploaded documents and get source-grounded, citation-backed answers from Gemini. Features browser autom
                            • March 2025 (version 1.99)

                              Update 1.99.1: The update addresses these security issues. Update 1.99.2: The update addresses these issues. Update 1.99.3: The update addresses these issues. Downloads: Windows: x64 Arm64 | Mac: Universal Intel silicon | Linux: deb rpm tarball Arm snap Welcome to the March 2025 release of Visual Studio Code. There are many updates in this version that we hope you'll like, some of the key highligh

                                March 2025 (version 1.99)
                              • Agent Design Is Still Hard

                                written on November 21, 2025 I felt like it might be a good time to write about some new things I’ve learned. Most of this is going to be about building agents, with a little bit about using agentic coding tools. TL;DR: Building agents is still messy. SDK abstractions break once you hit real tool use. Caching works better when you manage it yourself, but differs between models. Reinforcement ends

                                  Agent Design Is Still Hard
                                • Kaigi on Rails 2025に参加 & テスト自動化×生成AI×アクセシビリティ なテーマで登壇した - YusukeIwakiのブログ

                                  2025/9/26-27に東京駅すぐのJPタワーで開催されたKaigi on Railsで、今年も登壇をした。 いままで一貫してRailsのシステムテストの話をKaigi on Railsで登壇発表してきてたが、生成AIや周辺サービスの発展もあいまって今年はだいぶRailsシステムテストからは離れた方向となった。 2021年→Railsのシステムテスト解剖学 内部構造を知らずにCapybaraを使っているから不安定なテストが生み出される!とにかく解説 2023年→E2E testing on Rails 2023 Capybaraのことは一旦忘れて、Node.jsベースのテストランナーでRailsアプリケーションをテストすることはできるのか?という考察と実践 2024年 →Capybara+生成AIでどこまで本当に自然言語のテストを書けるか? 生成AIを活用したら、人間が頑張ってテストを書

                                    Kaigi on Rails 2025に参加 & テスト自動化×生成AI×アクセシビリティ なテーマで登壇した - YusukeIwakiのブログ
                                  • Invisible AI Character Detector & Remover | Remove Hidden AI Text Watermarks | proflead

                                    PhD researcher, web developer, data director, growth hacker, AI enthusiast, and educator with 18+ years of experience in tech. PhD researcher, web developer, data director, growth hacker, AI enthusiast, and educator with 18+ years of experience in tech. As a creator who relies on AI to help draft my blog posts, I kept running into a frustrating issue. When I'd copy text from ChatGPT, Claude, Gemin

                                      Invisible AI Character Detector & Remover | Remove Hidden AI Text Watermarks | proflead
                                    • GitHubコードのチュートリアルをAIで自動作成する「Tutorial-Codebase-Knowledge」

                                      他の人が書いたコードを読み込み、複雑なコードをわかりやすく視覚化したチュートリアルを作成するツール「Tutorial-Codebase-Knowledge」が公開されました。 GitHub - The-Pocket/Tutorial-Codebase-Knowledge: Turns Codebase into Easy Tutorial with AI https://github.com/The-Pocket/Tutorial-Codebase-Knowledge This AI Explains ANY Codebase in 5 Minutes - Here is How I Built it - YouTube 何百ものファイル、何千もの関数があるコードベースに出くわした時、何から見始めたらいいのかわからなくなることがあります。Tutorial-Codebase-Knowledg

                                        GitHubコードのチュートリアルをAIで自動作成する「Tutorial-Codebase-Knowledge」
                                      • January 2025 (version 1.97)

                                        Update 1.97.1: The update addresses these security issues. Update 1.97.2: The update addresses these issues. Downloads: Windows: x64 Arm64 | Mac: Universal Intel silicon | Linux: deb rpm tarball Arm snap Welcome to the January 2025 release of Visual Studio Code. There are many updates in this version that we hope you'll like, some of the key highlights include: Next Edit Suggestions (preview) - Co

                                          January 2025 (version 1.97)
                                        • Real-world gen AI use cases from the world's leading organizations | Google Cloud Blog

                                          AI is here, AI is everywhere: Top companies, governments, researchers, and startups are already enhancing their work with Google's AI solutions. Published April 12, 2024; last updated October 9, 2025. Automotive & Logistics Business & Professional Services Financial Services Healthcare & Life Sciences Hospitality & Travel Manufacturing, Industrial & Electronics Media, Marketing & Gaming Public Sec

                                            Real-world gen AI use cases from the world's leading organizations | Google Cloud Blog
                                          • Deep Research再現実装をDeep Research以上に詳しく検証してみた - AKARI Tech Blog

                                            はじめに こんばんは! 今週のAKARI Tech Blogは、DX Solution 事業本部 Dev の許が担当いたします。 先日OpenAIが「Deep Research」を公開し、その驚異的な文献調査能力が話題となりましたね! 皆様使っていますでしょうか。 これまでひいこら言いながらインターネット検索していた時代と比べると、「Deep Research お願いします!」で、それなりの分析レポートが出てくることに隔世の感を感じますね。 これだけ性能の良いものが出てきた以上、仕組みが気になるところ。できることなら、自分たちでも再現実装してみたい! しかし例によってOpenAIは実装をオープンにはしてくれない……。 そこで登場するのが、Deep ResearchのOSS再現プロジェクトたち! まずは Deep ResearchにOpenな再現実装について聞いてみましょうか。 ChatGP

                                              Deep Research再現実装をDeep Research以上に詳しく検証してみた - AKARI Tech Blog
                                            • My AI Code Prep & Cline Workflow for Budget Coding/Debugging (Part 1)

                                              Last updated: Sept 2025 - If you want faster/more frequent/recent updates, buy my low cost context helper tool (cheap!!) AI Code Prep Pro How I Code with AI on a budget/free My Browser Setup: The Free AI Buffet First things first, I have a browser open loaded with tabs pointing to the free tiers of powerful AI models. Why stick to one when you can get multiple perspectives for free? My typical lin

                                              • Gemini CLIを解説 - G-gen Tech Blog

                                                G-genの杉村です。Google が公開するオープンソースの AI エージェント Gemini CLI について解説します。 概要 Gemini CLI とは 料金 初期設定 インストール 認証 Cloud Shell での利用 リモートサーバー等での利用 使い方 対話型実行 非対話型実行 プロジェクトごとのコンテキスト設定 Gemini Code Assist との連携(エージェントモード) プライバシーポリシーとデータ保護 Gemini モデルに関するデータ保護 Gemini CLI の統計情報 概要 Gemini CLI とは Gemini CLI とは、ターミナルから直接 Gemini の機能を利用できる、オープンソース(Apache 2.0 ライセンス)の AI エージェントです。gemini コマンドを介して、自然言語でコーディング、デバッグ、情報検索、各種タスクの自動化など

                                                  Gemini CLIを解説 - G-gen Tech Blog
                                                • 【2026年最新版】Mac歴12年が選ぶ絶対入れるべき厳選Macアプリ30選

                                                  12年以上Macを使い続けてきた筆者が、「これがないとMacじゃない!」というレベルの必須オススメアプリを紹介する。 2026年の更新版として、Claude Code + Obsidianなど、最新のAIエージェントの活用情報も反映している。 ライターでもありプログラマーでもあり理系大学院卒という筆者のバックグラウンドから、社会人の仕事効率化に役立つアプリから、試験勉強や資格試験に役立つアプリ、さらにはエンジニアや研究者に役立つアプリまで、きっと示唆に富むセレクションになっているはずだ。 Macを購入したばかりの人や、使い始めて数年のMac初中級者の場合、新しいアプリを試す機会も少なく、Macのポテンシャルを最大限に引き出せていない人も多いのではないか。 Macの強みは、サードパーティーのアプリが充実していて、痒い所に手が届く、様々なニーズに応えるアプリが存在することだ。初期インストールさ

                                                    【2026年最新版】Mac歴12年が選ぶ絶対入れるべき厳選Macアプリ30選
                                                  • Firebase Studio

                                                    Get to work quickly wherever you areGo from opening your browser to building in minutes, not hours. Import your existing repositories from GitHub, GitLab, Bitbucket, or your local machine, with support for most tech stacks. Or use the App Prototyping agent to quickly create a new application using natural language, mockups, drawing tools, and screenshots, or select from a large catalog of popular

                                                      Firebase Studio
                                                    • How Rob Pike got spammed with an AI slop “act of kindness”

                                                      26th December 2025 Rob Pike (that Rob Pike) is furious. Here’s a Bluesky link for if you have an account there and a link to it in my thread viewer if you don’t. Fuck you people. Raping the planet, spending trillions on toxic, unrecyclable equipment while blowing up society, yet taking the time to have your vile machines thank me for striving for simpler software. Just fuck you. Fuck you all. I ca

                                                        How Rob Pike got spammed with an AI slop “act of kindness”
                                                      • What I learned building an opinionated and minimal coding agent

                                                        What I learned building an opinionated and minimal coding agent 2025-11-30 It's not much, but it's mine Table of contents In the past three years, I've been using LLMs for assisted coding. If you read this, you probably went through the same evolution: from copying and pasting code into ChatGPT, to Copilot auto-completions (which never worked for me), to Cursor, and finally the new breed of coding

                                                          What I learned building an opinionated and minimal coding agent
                                                        • What I learned building an opinionated and minimal coding agent

                                                          What I learned building an opinionated and minimal coding agent 2025-11-30 It's not much, but it's mine Table of contents In the past three years, I've been using LLMs for assisted coding. If you read this, you probably went through the same evolution: from copying and pasting code into ChatGPT, to Copilot auto-completions (which never worked for me), to Cursor, and finally the new breed of coding

                                                            What I learned building an opinionated and minimal coding agent
                                                          • October 2025 (version 1.106)

                                                            Release date: November 12, 2025 Update 1.106.1: The update addresses these issues Update 1.106.2: The update addresses these issues Update 1.106.3: The update addresses these issues Downloads: Windows: x64 Arm64 | Mac: Universal Intel silicon | Linux: deb rpm tarball Arm snap Welcome to the October 2025 release of Visual Studio Code. This release brings significant updates across three key areas:

                                                              October 2025 (version 1.106)
                                                            • Firebase Studio

                                                              Get to work quickly wherever you areGo from opening your browser to building in minutes, not hours. Import your existing repositories from GitHub, GitLab, Bitbucket, or your local machine, with support for most tech stacks. Or use the App Prototyping agent to quickly create a new application using natural language, mockups, drawing tools, and screenshots, or select from a large catalog of popular

                                                                Firebase Studio
                                                              • AI as Normal Technology

                                                                A project studying how advanced AI systems may harm, or help strengthen, democratic freedoms We articulate a vision of artificial intelligence (AI) as normal technology. To view AI as normal is not to understate its impact—even transformative, general-purpose technologies such as electricity and the internet are “normal” in our conception. But it is in contrast to both utopian and dystopian vision

                                                                  AI as Normal Technology
                                                                • GitHub - punkpeye/awesome-mcp-servers: A collection of MCP servers.

                                                                  Servers for accessing many apps and tools through a single MCP server. 1mcp/agent 📇 ☁️ 🏠 🍎 🪟 🐧 - A unified Model Context Protocol server implementation that aggregates multiple MCP servers into one. tadas-github/a2asearch-mcp 📇 ☁️ - MCP server to search 4,800+ MCP servers, AI agents, CLI tools and agent skills. Install: npx -y a2asearch-mcp. Ask Claude: "Find MCP servers for database access"

                                                                    GitHub - punkpeye/awesome-mcp-servers: A collection of MCP servers.
                                                                  • Just Talk To It - the no-bs Way of Agentic Engineering | Peter Steinberger

                                                                    I’ve been more quiet here lately as I’m knee-deep working on my latest project. Agentic engineering has become so good that it now writes pretty much 100% of my code. And yet I see so many folks trying to solve issues and generating these elaborated charades instead of getting sh*t done. This post partly is inspired by the conversations I had at last night’s Claude Code Anonymous in London and par

                                                                      Just Talk To It - the no-bs Way of Agentic Engineering | Peter Steinberger
                                                                    • GitHub - browser-use/web-ui: Run AI Agent in your browser.

                                                                      This project builds upon the foundation of the browser-use, which is designed to make websites accessible for AI agents. We would like to officially thank WarmShao for his contribution to this project. WebUI: is built on Gradio and supports a most of browser-use functionalities. This UI is designed to be user-friendly and enables easy interaction with the browser agent. Expanded LLM Support: We've

                                                                        GitHub - browser-use/web-ui: Run AI Agent in your browser.
                                                                      • Technology Trends for 2024

                                                                        This has been a strange year. While we like to talk about how fast technology moves, internet time, and all that, in reality the last major new idea in software architecture was microservices, which dates to roughly 2015. Before that, cloud computing itself took off in roughly 2010 (AWS was founded in 2006); and Agile goes back to 2000 (the Agile Manifesto dates back to 2001, Extreme Programming t

                                                                          Technology Trends for 2024
                                                                        • Everything I built with Claude Artifacts this week

                                                                          21st October 2024 I’m a huge fan of Claude’s Artifacts feature, which lets you prompt Claude to create an interactive Single Page App (using HTML, CSS and JavaScript) and then view the result directly in the Claude interface, iterating on it further with the bot and then, if you like, copying out the resulting code. I was digging around in my Claude activity export (I built a claude-to-sqlite tool

                                                                            Everything I built with Claude Artifacts this week
                                                                          • Antigravity + Gemini 3 Pro のデザイン再現率をさらに引き上げるコツ - izanami

                                                                            Antigravity と Gemini 3 Pro でデザイン再現率を上げるには、全画面ではなくセクション単位で画像を切り出してアップロードし、既存コードを読み込ませた状態で生成させ、角丸や余白などの微調整を反復して指示するのが最速で 120 点のクオリティに到達する方法 有料プラン契約して、ガンガン回した結果、Antigravity + Gemini 3 Pro のデザイン再現率をさらに引き上げるコツを掴んだぜぃ ポイントはこれ セクション単位で狭く切り出して画像を見せる 既存のコードとクラス設計を読み込ませた状態で生成させる 細かい修正指示を反復で伝える 80 点を生成させた後に、細かいフィードバックを出す だいたい、これやればデザインの精度がバク上がりする でも、無料やと、すぐにレートリミットや! なんで、個人アカウントに切り替えて、Google AI Pro(月額 2,900 円

                                                                              Antigravity + Gemini 3 Pro のデザイン再現率をさらに引き上げるコツ - izanami
                                                                            • How bad are search results? Let's compare Google, Bing, Marginalia, Kagi, Mwmbl, and ChatGPT

                                                                              Marginalia does relatively well by sometimes providing decent but not great answers and then providing no answers or very obviously irrelevant answers to the questions it can't answer, with a relatively low rate of scams, lower than any other search engine (although, for these queries, ChatGPT returns zero scams and Marginalia returns some). Interestingly, Mwmbl lets users directly edit search res

                                                                              • ChatGPT: Everything you need to know about the AI chatbot

                                                                                December 2025 OpenAI lets users tweak ChatGPT’s energy and tone OpenAI has added new controls in ChatGPT that let users adjust the chatbot’s warmth, enthusiasm, emoji use, and formatting style. This builds on existing tone options, addressing past complaints about the AI being too sycophantic or cold. OpenAI updates ChatGPT guidelines to protect teen users OpenAI has updated its guidelines for use

                                                                                  ChatGPT: Everything you need to know about the AI chatbot