Published Jan 09, 2026 The capabilities that make agents useful also make them difficult to evaluate. The strategies that work across deployments combine techniques to match the complexity of the systems they measure. IntroductionGood evaluations help teams ship AI agents more confidently. Without them, it’s easy to get stuck in reactive loops—catching issues only in production, where fixing one f
こんにちは!逆瀬川ちゃん (@gyakuse) です! 今日はCoding Agent時代のドキュメントについて、最近考えていることを書いていきたいと思います。悩み中なので、荒れた内容になっていますが、ご容赦を。コード規模、チーム規模などなどによって、正解は異なるものだと思います。あくまで私の実践の一例として読んでくれれば幸いです。 以前書いたCoding Agent時代の開発ワークフローやClaude Codeのシステムプロンプト解説記事でCLAUDE.mdやAGENTS.md、ADRの運用について少し触れましたが、そもそもドキュメントって何のために書くんだっけ、Agentが読むドキュメントはどうあるべきなんだっけ、というところをもう少し掘り下げて考えたいなと思っていました。まだ結論が固まっているわけではないのですが、最近の実践から見えてきたことをまとめてみます。 そもそもドキュメントの
We train Composer for long-horizon tasks through a reinforcement learning process called self-summarization. By making self-summarization part of Composer's training, we can get training signal from trajectories much longer than the model's max context window. This translates into Composer being able to learn to work on challenging coding tasks requiring hundreds of actions. #The limits of compact
はじめに AmebaLIFE事業本部でWebフロントエンドエンジニアをしている湯本航基(@yu_3in)です。 本記事では、PRレビューコメントをもとにコーディングガイドラインを継続的に更新する仕組みについて紹介します。 最近は、AIの支援を受けながら実装を進めることが当たり前になってきました。 その一方で、チームの中にある判断基準やレビュー観点が整理されていないと、成果物の品質は安定しません。 今回取り組んだのは、その判断基準をレビューの中から継続的に回収し、ガイドラインとして育てていく仕組みです。 やりたかったのは、PRレビューの中にある判断基準を、継続的に再利用できる形にすることでした。 課題 背景にあった課題は、大きく2つありました。 レビュー知見がPRの中に埋もれて、チームの資産になりにくい ガイドラインを作っても、更新されずに形骸化しやすい もちろん、一般的なベストプラクティス
TL;DR CLAUDE.mdはSystem Promptではなく、User Messageとして注入される セッション後半になると影響力が薄れるため、セッションを通して守らせたいルールの置き場所には向かない CLAUDE.mdにはセッション開始時の作業を助ける情報だけを書き、ルールは .claude/rules/ に置く はじめに Claude Codeを使っている人なら、CLAUDE.mdに何を書くかで一度は悩んだことがあるのではないでしょうか。 コーディングルール、命名規則、テストの方針、コミットメッセージのフォーマット。色々なことを書いている人が多いと思います。自分もそうでした。 ただ、CLAUDE.mdの内部的な扱われ方を知ると、そこに書くべきものの考え方が結構変わります。結論から言うと、CLAUDE.mdにはセッション開始時の作業を助ける情報だけを書いて、ルールは .claud
Anthropic Engineering Blogはこの設計について「コンテキストウィンドウは公共財」と表現しています。あなたのスキルは他のスキルやシステムプロンプトと同じ空間を共有しているので、段階的に読み込むことが非常に重要になります。 MCPとの関係も整理しておきます。MCPがCoding Agentの「手足」(ツール・接続性)を提供するのに対し、Skillsは「脳内知識」(ワークフロー・ベストプラクティス)を提供します。公式ガイドのキッチンの比喩を借りれば、MCPが「プロフェッショナルキッチン」(道具・食材・設備)で、Skillsが「レシピ」(手順書)にあたります。 本編と関係ないですが、MCPについては以前MCP Lightというアイデアを記事にしました。MCPは良いキッチンなのですが、Context Windowを圧迫しやすくかつ命令予算を消費しがちなため、Skillと組み合
この記事はkintoneの生成AIチームで連載中のkintone AIリレーブログ2026の7本目の記事です。 リレーブログでは、生成AIチームのメンバーがAIトピックに限らずさまざまなことについて発信していきます。 こんにちは、kintoneの生成AIチームでエンジニアリングマネージャーをしている立山です。 みなさんのチームはAIを活用していますか?ここ最近はコーディングエージェントが高速にそこそこいいコードを作ってくれる時代で、個人の開発生産性は上がっていると思います。一方で、チームでAIを活用するというのはまだまだ限られているのではないでしょうか? この記事ではチームでAI、特に自律的に仕事を進めてくれるAIエージェントとの協業のはじめ方についてお話ししようと思います。 私たちのチームでは、AIエージェントとの協業を始めるにあたって、以下の3つに取り組みました。 仕事を言語化し、Ag
Claude and Codex now available for Copilot Business & Pro users Claude by Anthropic and OpenAI Codex are now available as coding agents for Copilot Business and Copilot Pro customers. Copilot Enterprise and Pro+ customers received access earlier this month, and today we’re expanding availability to more teams. You can run Claude, Codex, and Copilot directly inside github.com, GitHub Mobile, and VS
AI時代のGo開発2026 爆速開発のためのガードレール UPSIDER Ryo Mimura 2026/02/21 Go Conference mini in Sendai 2026 © 2026 UPSIDER.inc 1 Presenter Profile 三村 遼 Ryo Mimura) @r4mimu 株式会社UPSIDER ● ● これまで ○ 社内CI/CD基盤・開発生産性 ○ BtoB SaaS プロダクトエンジニア 2025 ○ UPSIDER カード事業部 Backend Engineer ● ランニング🏃 サウナ🧖 飲酒🍻 ● 好きなパッケージ: context © 2026 UPSIDER.inc 2
Menu. Currently selected: Claude and Codex coding agents are now in public preview Claude and Codex coding agents are now in public preview Claude by Anthropic and OpenAI Codex are now available as coding agents for Copilot Pro+ and Copilot Enterprise customers. You can start agent sessions and assign work to these agents from github.com, GitHub Mobile, and VS Code. You can do this directly from i
With LM Studio 0.4.1, we're introducing an Anthropic-compatible /v1/messages endpoint. This means you can use your local models with Claude Code! LM Studio and Claude Code First, install LM Studio from lmstudio.ai/download and set up a model. Alternatively, if you are running in a VM or on a remote server, install llmster:
AI・機械学習チームの髙橋です。 みなさま、コーディングライフいかがお過ごしでしょうか。 エムスリーでは、昨年初夏頃からエンジニアに対してClaude Codeの業務における無制限使用が解禁されています。 現在ではほぼすべてのエンジニアが普段からClaude Codeを利用し、AIレビューやチーム内でのプラグインによるSkill共有が進んでいます! ということで今回は、以前の突撃! 隣のキーボード M3 2024 - エムスリーテックブログのスピンオフとして、エムスリーのエンジニアメンバーが実際に利用している便利なClaude Codeのカスタマイズを募集し、紹介します! 例のしゃもじ 前置き:Claude Codeのカスタマイズとは Claude Codeではエージェントに対してユーザ・プロジェクト固有の指示や制約を与えることができます。 昨今はSkillsが特に話題となっていますが、こ
GitHub Copilot CLI now implements the Agent Client Protocol (ACP), an industry-standard protocol for communication between AI agents and clients. This enables third-party tools, IDEs, and automation systems to integrate directly with Copilot’s agentic capabilities through an extensible interface. How it works You can start Copilot in ACP mode via stdio: copilot --acp Or connect via TCP on a specif
We’ve redesigned where you manage Copilot coding agent tasks. We’re bringing a new look and feel to your mission control style view directly into your repository with a new Agents tab. Instead of navigating to a separate page, your agent sessions now live alongside your code, pull requests, and issues. View all sessions for the repository in one place, create new ones, and switch between tasks wit
※この記事は、2026/01/25 時点の情報です 背景 前提として、OpenCodeからGitHub Copilotを使うのはグレーゾーンであった。ただ色々あって2026/01/16にGitHub側でも使っていいよ、とアナウンスが出た。 GPT5.2、Codexはクレジットのレート(リクエスト、Premium Request)も安くて、昨日リリースのv1.1.35ではxhigh設定もできるようになった。 それもあって、最近はOpenCode + GitHub Copilotを検証している。そんな中で書いたこのツイートが伸びてるけど、調べずに書いて誤解を招くところがあるので訂正を含めて調査した記録がこの記事です。結論はブログの表題です。 どこがマズいか 「OpenCode + GitHub Copilotは安そう」の部分が怪しかった。GitHub Copilotはサブスクリプション+リクエ
この記事は筆者がAI駆動開発を通して積み上げてきた開発フローやそのTipsを紹介するものであり、絶対的な正解を示したり、主義主張を押し付けたりするものではありません。 どこから始めたらよいかわからない方や指針を求めている方の参考になれば幸いです。 この記事ではコーディングエージェントのことをAIと表記します。 前提:"俺"の現状 使っているAIとツール GitHub Copilot(Enterprise):仕事メイン Claude Code(Max):プライベートメイン Codex(主にAzure OpenAIのモデルで利用) メインはGitHub CopilotとClaude Codeです。本記事の内容もこの2つの最大公約数的な使い方になっています。 Codexはサブスクで常用できる環境がないので、かなり複雑な設計が必要な場面か、他ツール比較で確認したいときにスポットでAzure Ope
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く