Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
はじめに 2025年はAIエージェントの年です。注目されているAIエージェントの一つが『AIが自動で自分のPC画面を操作』するBrowser Useというツールです。 Browser Useの面白さ Browser Useを使うと、AIが自動で自身のPC画面を操作することであらかじめ決めた目的を達成をしてくれます。 簡単な指示を出すだけで、自動でAIが色々操作してくれるのはキャッチーで衝撃的ですよね。 例えば下記のように完全自動でAIが記事を検索して記事の情報を取得してくれます。 簡単な指示でAIが自分で考えて画面操作をしてくれるのは近未来感ありますよね。 しかし、現場でAIを使いこなすには「AIがすごい」のレベルではまだ足りません。 実際に触ってみて何ができるのか?逆に何が苦手なのか?という肌感覚を持つことが非常に重要です。 そこで本記事は、その肌感覚を養うために実際にBrowser U
Hey, dipshit! You know what loads faster than your bloated, overengineered mess? Plain, unadulterated HTML. And you know what doesn't break every motherfucking Tuesday? HTML that just fucking works. Why the fuck are you overcomplicating things, you masochistic fuck? You're out here acting like you're building the next goddamn moon landing when all you need is a button and some text. Newsflash, ass
One month ago, I subscribed to Claude Max. I've been using AI agents including Claude Code for some time prior, but with the flat pricing, my usage skyrocketed and it's become a daily driver for many tasks. I find myself going to VS Code much less often now. Since AI agents are new for everyone right now, I thought it might be fun to share some patterns I've been noticing recently. Here's how I us
すべてのコーディングエージェントに独立した開発用コンテナ環境を与えられる「Container Use」、Docker創業者がオープンソースで公開 Docker創業者で現在はプラットフォームエンジニアリングのツールを開発するDagger社の創業者兼CTOのSolomon Hykes(ソロモン・ハイクス)氏は、すべてのコーディングエージェントに対してそれぞれ独立した開発用のコンテナ環境を与えられるオープンソースのツール「Container Use」を公開しました。 container-use has a logo. How do you like it? pic.twitter.com/IcKmbymGLW — Solomon Hykes (@solomonstre) June 7, 2025 AIエージェントがWebブラウザを操作できるようになる「Browser Use」や、AIエージェント
python 01agent.py INFO [browser_use] BrowserUse logging setup complete with level info INFO [root] Anonymized telemetry enabled. See https://github.com/gregpr07/browser-use for more information. INFO [agent] 🚀 Starting task: 今日の運勢について教えて INFO [agent] 📍 Step 1 INFO [agent] 🤷 Eval: Unknown - No prior goal was set. INFO [agent] 🧠 Memory: No actions have been taken yet. Current task is to find tod
はじめに browser-use を使う上で詳しいドキュメントがなかったので、自分で使ってみたことをまとめてみました。 browser-use の基礎的なところは以下にまとめてあります。 ブラウザを起動させず、ヘッドレスモードで実行したい BrowserConfigのheadlessをTrueにすることで、ブラウザを起動させず、ヘッドレスモードで実行することができます。 from browser_use.browser.browser import Browser, BrowserConfig browser = Browser( config=BrowserConfig( headless=True, ) ) async def main(): model = ChatOpenAI(model='gpt-4o') agent = Agent( task='東京の天気をGoogleで調べて
はじめに 「Just use Postgres」という言葉を初めて聞いたのは、いつだったか覚えていません。Twitter か Hacker News か、あるいは社内の Slack か。どこで聞いたにせよ、私の反応は決まっていました。「また極端なことを言う人がいる」と。 「それ、〇〇でもできますよ」——この手のフレーズはもう100回は聞いてきました。そして大抵の場合、その〇〇は専用ツールに置き換えられていきます。技術が専門分化していくのは自然な流れです。 全文検索なら Elasticsearch。時系列データなら InfluxDB。メッセージキューなら RabbitMQ。それぞれの分野に専門家がいて、専用のソリューションがあって、ベストプラクティスがあります。「とりあえず Postgres で」なんて、それは思考停止ではないか、と。でも、心のどこかで気になっていたんです。 www.mann
Use the 4-7-8 Method to Fall Asleep Almost InstantlyAncient wisdom and modern science agree that all you need to fall asleep fast is a few seconds and a set of lungs. If you're looking for motivation to get more sleep, there are plenty of studies I could point you to, like this recent one showing that insufficient sleep causes toxic gunk to build up in your brain. Or how about this one that found
Moving around your terminal effectively is going to make you more productive. Sometimes you need to quickly move between different projects or directories located in different places in your machine. For instance, maybe your code lives in ~/project/my-project, but the configuration of the server is in /etc/... Remembering locations is inefficient, and often they take longer to write. What if there
AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に 人間やAIエージェントがコマンドラインから指示することでWebブラウザを操作できるオープンソースのPythonライブラリ「Browser Use CLI 2.0」がリリースされました。 Browser Use CLI 2.0では、Chromeブラウザに対してChrome DevTools Protocol(CDP)で接続して操作できるようになり、またセッションごとにWebブラウザを起動することなくデーモンによるセッションの保持が行われることで、前バージョンよりも操作速度が2倍になるなどの機能向上が実現されています。 Introducing: Browser Use CLI 2.0 The most efficient b
$ git push origin branch名 remote: Support for password authentication was removed on August 13, 2021. Please use a personal access token instead. remote: Please see https://github.blog/2020-12-15-token-authentication-requirements-for-git-operations/ for more information. fatal: unable to access 'https://github.com/名前/リポジトリ.git/': The requested URL returned error: 403 Please use a personal access t
皆さんこんにちは。最近のReact界隈で話題になっているのは次のRFCです。 そこで、この記事ではさっそくRFCを理解することを目指します。 ただし、このRFCはSuspenseに深く関わるものです。SuspenseはReact 18でもう正式リリースされていますから、この記事ではSuspenseは前提知識とします。もしまだSuspenseをよく知らないのであれば、ぜひ次の記事で学習してください。 また、RFCはあくまでReactの新機能のアイデアを公開するものであり、これが必ず実装されるとは限らない点にご注意ください。例えば、過去にはuseEventというRFCが注目を集めていましたが、意見が集まった結果としてそのRFCは実装されずにクローズされました(RFCが無駄だったというわけではなく、再度検討してよりアイデアがブラッシュアップされることになります)。 新しい use API このR
Browser Useから新しいブラウザ操作系エージェントが登場しました めちゃくちゃ魅力的だったので紹介します。 従来のブラウザ操作系エージェント browser-useに限らず、従来のブラウザ操作系エージェントはユーザーからの自然言語な指令をもとにブラウザを操作します。 AIエージェントは画面キャプチャ + DOMの取得 → キャプチャを解析 → クリックすべき要素を推論 → playwrightで操作をループしてタスクを行います。 現在僕もよく使っているのですが、何点か課題があります。 どうしてもアクションに揺らぎがある 自然言語での指示である以上仕方ないのですが、「〇〇をクリックして〇〇をしてほしい」と言った細かい指示はプロンプトのチューニングが不可欠であり使用モデルの賢さにも依存します。 処理に時間がかかる 画面キャプチャ + DOMの取得 → キャプチャを解析 → クリックすべ
It turns out we've all been using MCP wrong. Most agents today use MCP by directly exposing the "tools" to the LLM. We tried something different: Convert the MCP tools into a TypeScript API, and then ask an LLM to write code that calls that API. The results are striking: We found agents are able to handle many more tools, and more complex tools, when those tools are presented as a TypeScript API r
はじめに 開発業務で「情報収集」や「タスク自動化」をするときにスクレイピングやクローリングを用いる場合があると思います。一時期私もスクレイピング関連の本を読んでBeautifulSoup, Seleniumなどを使って自動化をしましたが、CSSセレクタを指定していくのが大変だったり、DOM構造が変わると動かなくなったりと、色々苦労した覚えがあります。 そんな時、browser-useという面白そうなライブラリを見つけたので、この記事では、browser-useを使ってみた内容を自分用のメモとして残そうと思います。 browser-useとは? browser-useはAIを使ってブラウザ操作を自動化してくれるツールです。 このツールは、Pythonを使ってブラウザで実行する操作をテキストで渡してあげると、AIがそのテキストに基づき操作を行ってくれます。そのためスクレイピング/提携業務の自動
なぜ“優秀なメンバー”がTVerを選ぶのか?月間ユーザー数4,120万、今まさに再構築フェーズにあるサービスの舞台裏 なぜ“優秀なメンバー”がTVerを選ぶのか?月間ユーザー数4,120万、今まさに再構築フェーズにあるサービスの舞台裏 民放公式テレビ配信サービス「TVer(ティーバー)」は、創業以来、右肩上がりで成長を続けてきました。2024年12月には月間動画再生数が4.96億回を突破し、2025年1月には月間ユーザー数(ユニークブラウザベース)で4,120万を記録*。名実ともに日本最大級の動画配信サービスのひとつとなっています。 *…自社調べ。出典:「[TVer] 2024年12月の再生数 過去最高の4.96億回を記録」「【TVer】2025年1月の月間ユーザー数 過去最高の4,120万MUBを記録」。 一見すると、事業・システム・組織のすべてがすでに整っているように見えるTVerです
Early-stage startups shouldn't run on Kubernetes yet. But eventually, growth-stage and large companies should be running on Kubernetes in some form. Kubernetes Maximalism doesn't mean one-size-fits-all. Infrastructure should progressively grow with your workloads and team. How can you choose the right technology now so that you can maximize growth and minimize pain later when you inevitably outgro
browser-useについて調査する どういうものか ブラウザのデバッグプロトコルを使ってLLMで操作するpythonライブラリ Playwright API → Chrome DevTools Protocol (CDP) ClaudeのComputer useのスコープを狭めたものと理解できる 似たツールとしてMCPのPuppeteerサーバーがある→mcp/puppeteer モデル(LLM)の呼び出しにLangChain Modelのインターフェイスに依存することでマルチプロバイダ対応してる なのでLangChainで動くモデルに対応してる 結果的にLangChain風のAgentフレームワークのミニマムな実装になってる 何ができるの? ブラウザ操作を自動化してできることはできる Hugging Faceで特定のライセンスを持つモデルを検索し、その情報をファイルに保存する 求人情
3秒まとめ container-useで Docker コンテナ内にコーディングエージェントの実行環境を独立して作成可能 複数のエージェントを並列実行してローカルで安全に開発環境を管理できる MCP経由で Claude Code、Cursor、goose などから簡単に操作可能 Git worktreeよりもクリーンで管理しやすい環境分離を実現 どんな人向けの記事? ローカルで複数のコーディングエージェントを並列実行したい方 Dockerコンテナ内で安全にAI開発環境を管理したい方 Claude Code、Cursor、gooseなどのMCP対応クライアントを使っている方 Git worktreeの代替手法を探している方 概要 Docker の創業者の 1 人が、特定のワークツリーをコンテナ内に配置してコーディングエージェントを動作させるツール「container-use」を開発しました。
Do you recall when Scrum was the rage? When was it mandatory for all businesses to have certified Agile Coaches and Scrum Masters? When were daily standups and two-week sprints considered the pinnacle of software development? You might be surprised to learn that the world’s largest tech companies never truly embraced it. The signs of this trend are everywhere, and I’ve been observing it for some t
AI & MLLearn about artificial intelligence and machine learning across the GitHub ecosystem and the wider industry. Generative AILearn how to build with generative AI. GitHub CopilotChange how you work with GitHub Copilot. LLMsEverything developers need to know about LLMs. Machine learningMachine learning tips, tricks, and best practices. How AI code generation worksExplore the capabilities and be
米Google DeepMindは10月7日(現地時間)、「Gemini 2.5 Pro」の視覚理解力と推論能力を基盤として特別に構築されたAIエージェントモデル「Gemini 2.5 Computer Use」を、APIを通じてパブリックプレビュー公開したと発表した。 このモデルは、ユーザーからの自然言語による指示と、画面のスクリーンショットをインプットとして受け取る。モデルは、画面上の要素を視覚的に認識し、ユーザーのリクエストを分析し、次に何をすべきかを判断し、マウスクリック、スクロール、タイピング、フォームへの入力といった具体的なUIアクションを、`function_call`という関数呼び出しの形で生成する。この一連のプロセスは、アクション実行後に新しいスクリーンショットをモデルに送り返すエージェントループの中で繰り返され、タスクが完了するまで自律的に操作を続行する。これにより、人
AI コーディングエージェントは便利ですが、任意の Bash コマンドを実行できるため、ユーザーのシステムに影響を与える可能性があります。Container Use は MCP サーバーとして動作し、AI コーディングエージェントにサンドボックス環境を提供します。この記事では Container Use の利用方法について紹介します。 Claude Code, Cline, Cursor といった AI コーディングエージェントは多くの開発者に受け入れられており、生産性の向上に大きく貢献しています。他方で安全のために AI コーディングエージェントの実行には注意を払う必要があることを忘れてはいけません。基本的にはユーザーに都度許可を求めるように設計されているものの、AI コーディングエージェントは任意の Bash コマンドを実行できます。例えば rm -rf ~/ のようなコマンドを実行さ
ブログサービス「はてなブログ」やソーシャルブックマークサービス「はてなブックマーク」、SaaS型サーバー監視サービス「Mackerel」などの有名サービスを開発・運営する株式会社はてな。 同社は他にも、株式会社KADOKAWAと共同で小説投稿サイト「カクヨム」を、株式会社集英社と共同でマンガ家のための作品投稿・販売プラットフォーム「マンガノ」を開発するなど、技術力やシステム構築の実績を活かして大手企業との協業を積極的に行っています。 はてなのCTOである大坪弘尚(通称:motemen)さんは、2008年に同社へと新卒入社して以来、15年近くにわたりプロダクト開発を支え続けてきました。そんな大坪さんに、過去に行った組織的・技術的意思決定のなかで印象に残るものを聞きました。 エンジニア自身がプロダクトオーナーシップを持てるように――今回のインタビューでは、過去に取り組んだ組織的・技術的意思決定
API doc platform Publish API doc portals from OpenAPI and AsyncAPI documents. Automated changelog, versioning and governance. Documentation that scales with your API ecosystem. Managed MCP platform Turn your API ecosystem into deterministic, production-ready MCP servers. Define how agents consume your APIs, with built-in authentication and observability.
I've been using Claude Code as my primary development tool for approx 9 months, and the workflow I've settled into is radically different from what most people do with AI coding tools. Most developers type a prompt, sometimes use plan mode, fix the errors, repeat. The more terminally online are stitching together ralph loops, mcps, gas towns (remember those?), etc. The results in both cases are a
はじめに 最近話題になっている browser-use について自己理解のために基本的なところをまとめてみます。 公式リポジトリはこちら browser-use とは? browser-use は、Python で作られた「AI エージェントがウェブブラウザを操作できるようにする」ためのライブラリです。具体的には、下記のような機能を提供しています。 ビジョン機能や HTML 抽出 ブラウザで読み込んだページの DOM(要素構造)を解析、スクリーンショットやテキスト情報を取得できます。 マルチタブ管理 自動で複数タブを開き、それぞれのタブを並行して操作できます。 カスタムアクション機能 たとえば「特定のファイルを保存」「データベースへ登録」「社内チャットに通知する」など、ユーザー独自のアクションを定義できます。 自己修正機能 操作が失敗したり、要素を見つけられなかったりした場合に、自分で修正
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く