[B! LLM] Kesinのブックマーク

Unweight: how we compressed an LLM 22% without sacrificing quality

Kesin 2026/04/19

LLM

リンク

Demystifying evals for AI agents

Published Jan 09, 2026 The capabilities that make agents useful also make them difficult to evaluate. The strategies that work across deployments combine techniques to match the complexity of the systems they measure. IntroductionGood evaluations help teams ship AI agents more confidently. Without them, it’s easy to get stuck in reactive loops—catching issues only in production, where fixing one f

Kesin 2026/04/11

AnthropicのAIエージェントの評価の構築、運用のノウハウ

LLM

リンク

https://openai.com/ja-JP/index/unrolling-the-codex-agent-loop/

Kesin 2026/04/05

Responses APIはprevious_response_id⁠パラメータで全データを送らなくてもキャッシュを効かせらたはずだけど、Codexではゼロデータ保持（ZDR）をサポートするために使っていない、という話は知らなかった

LLM

リンク

Coding Agent時代のドキュメントについて考えていること

こんにちは！逆瀬川ちゃん (@gyakuse) です！今日はCoding Agent時代のドキュメントについて、最近考えていることを書いていきたいと思います。悩み中なので、荒れた内容になっていますが、ご容赦を。コード規模、チーム規模などなどによって、正解は異なるものだと思います。あくまで私の実践の一例として読んでくれれば幸いです。以前書いたCoding Agent時代の開発ワークフローやClaude Codeのシステムプロンプト解説記事でCLAUDE.mdやAGENTS.md、ADRの運用について少し触れましたが、そもそもドキュメントって何のために書くんだっけ、Agentが読むドキュメントはどうあるべきなんだっけ、というところをもう少し掘り下げて考えたいなと思っていました。まだ結論が固まっているわけではないのですが、最近の実践から見えてきたことをまとめてみます。そもそもドキュメントの

Kesin 2026/03/19

コードと同様にドキュメントに対しても自動的なフィードバックループをが働くようにツールを作る発想は面白い。コードと違って自由度が高すぎるので今後いろいろなアプローチが生まれてきそう

LLM
開発

リンク

Training Composer for longer horizons · Cursor

We train Composer for long-horizon tasks through a reinforcement learning process called self-summarization. By making self-summarization part of Composer's training, we can get training signal from trajectories much longer than the model's max context window. This translates into Composer being able to learn to work on challenging coding tasks requiring hundreds of actions. #The limits of compact

Kesin 2026/03/19

compactionの改善をプロンプトではなくてモデル自体に組み込んでしまうのはコーディング専門モデルならではなのかな。composerモデルの次バージョンの開発が進んでいるらしい

LLM

リンク

コーディングガイドライン運用をAIで自動化し、レビュー知見を資産化する | CyberAgent Developers Blog

はじめに AmebaLIFE事業本部でWebフロントエンドエンジニアをしている湯本航基（@yu_3in）です。本記事では、PRレビューコメントをもとにコーディングガイドラインを継続的に更新する仕組みについて紹介します。最近は、AIの支援を受けながら実装を進めることが当たり前になってきました。その一方で、チームの中にある判断基準やレビュー観点が整理されていないと、成果物の品質は安定しません。今回取り組んだのは、その判断基準をレビューの中から継続的に回収し、ガイドラインとして育てていく仕組みです。やりたかったのは、PRレビューの中にある判断基準を、継続的に再利用できる形にすることでした。課題背景にあった課題は、大きく2つありました。レビュー知見がPRの中に埋もれて、チームの資産になりにくいガイドラインを作っても、更新されずに形骸化しやすいもちろん、一般的なベストプラクティス

Kesin 2026/03/11

今まで個人個人の暗黙知だったレビュー観点をAIに教えるための方法が今後流行っていきそうな予感

LLM
github

リンク

CLAUDE.mdに本当は何を書くべきなのか

TL;DR CLAUDE.mdはSystem Promptではなく、User Messageとして注入されるセッション後半になると影響力が薄れるため、セッションを通して守らせたいルールの置き場所には向かない CLAUDE.mdにはセッション開始時の作業を助ける情報だけを書き、ルールは .claude/rules/ に置くはじめに Claude Codeを使っている人なら、CLAUDE.mdに何を書くかで一度は悩んだことがあるのではないでしょうか。コーディングルール、命名規則、テストの方針、コミットメッセージのフォーマット。色々なことを書いている人が多いと思います。自分もそうでした。ただ、CLAUDE.mdの内部的な扱われ方を知ると、そこに書くべきものの考え方が結構変わります。結論から言うと、CLAUDE.mdにはセッション開始時の作業を助ける情報だけを書いて、ルールは .claud

Kesin 2026/03/08

確かに公式ドキュメントに書かれているCLAUDE.mdがユーザープロンプトに注入される振る舞いからから考えるとよく忘れられる理由もわかるし、.claude/rulesで遅延ロードされることの優位性も理解できる

LLM

リンク

skill-creatorから学ぶSkill設計と、Orchestration Skillの作り方

Anthropic Engineering Blogはこの設計について「コンテキストウィンドウは公共財」と表現しています。あなたのスキルは他のスキルやシステムプロンプトと同じ空間を共有しているので、段階的に読み込むことが非常に重要になります。 MCPとの関係も整理しておきます。MCPがCoding Agentの「手足」（ツール・接続性）を提供するのに対し、Skillsは「脳内知識」（ワークフロー・ベストプラクティス）を提供します。公式ガイドのキッチンの比喩を借りれば、MCPが「プロフェッショナルキッチン」（道具・食材・設備）で、Skillsが「レシピ」（手順書）にあたります。本編と関係ないですが、MCPについては以前MCP Lightというアイデアを記事にしました。MCPは良いキッチンなのですが、Context Windowを圧迫しやすくかつ命令予算を消費しがちなため、Skillと組み合

Kesin 2026/03/05

skill-creatorってそんなに高度なことになっていたのか

LLM

リンク

AIエージェントと協業するチームの始め方 - Cybozu Inside Out | サイボウズエンジニアのブログ

この記事はkintoneの生成AIチームで連載中のkintone AIリレーブログ2026の7本目の記事です。リレーブログでは、生成AIチームのメンバーがAIトピックに限らずさまざまなことについて発信していきます。こんにちは、kintoneの生成AIチームでエンジニアリングマネージャーをしている立山です。みなさんのチームはAIを活用していますか？ここ最近はコーディングエージェントが高速にそこそこいいコードを作ってくれる時代で、個人の開発生産性は上がっていると思います。一方で、チームでAIを活用するというのはまだまだ限られているのではないでしょうか？この記事ではチームでAI、特に自律的に仕事を進めてくれるAIエージェントとの協業のはじめ方についてお話ししようと思います。私たちのチームでは、AIエージェントとの協業を始めるにあたって、以下の3つに取り組みました。仕事を言語化し、Ag

Kesin 2026/03/02

開発
LLM

リンク

Claude and Codex now available for Copilot Business & Pro users - GitHub Changelog

Claude and Codex now available for Copilot Business & Pro users Claude by Anthropic and OpenAI Codex are now available as coding agents for Copilot Business and Copilot Pro customers. Copilot Enterprise and Pro+ customers received access earlier this month, and today we’re expanding availability to more teams. You can run Claude, Codex, and Copilot directly inside github.com, GitHub Mobile, and VS

Kesin 2026/02/28

GitHub上からGitHub Copilot Coding Agentの代わりにClaudeとCodexに依頼する機能が全プランで利用可能に。ポリシーでOpt inは必要。public previewの間はプレミアムリクエスト消費は1のみとのこと。これがAgentHQですか

github
LLM

リンク

なぜ、AIで生産性があがっていると錯覚してしまうのか

1983年生まれ。筑波大学大学院を卒業後、2008年に新卒第1期として株式会社ミクシィに入社。アーキテクトとして、技術戦略から組織構築などに携わる。同社メディア開発部長、開発部部長、サービス本部長執行役員を務めた後、2015年退社。現在は、株式会社レクターを創業し、技術と経営をつなぐ技術組織のアドバイザリーとして、多数の会社の経営支援を行っている。一般社団法人日本CTO協会理事、朝日新聞社社外CTO。

Kesin 2026/02/22

2025年に各所で言われ始めていた生産性への疑念が整理された印象。最後のページに述べられていた従来は積み上げ方、AI時代は削り出し方という比喩も分かりやすい

開発
LLM

リンク

AI時代のGo開発2026 爆速開発のためのガードレール | ドクセル

AI時代のGo開発2026 爆速開発のためのガードレール UPSIDER Ryo Mimura 2026/02/21 Go Conference mini in Sendai 2026 © 2026 UPSIDER.inc 1 Presenter Profile 三村遼 Ryo Mimura) @r4mimu 株式会社UPSIDER ● ● これまで ○ 社内CI/CD基盤・開発生産性 ○ BtoB SaaS プロダクトエンジニア 2025 ○ UPSIDER カード事業部 Backend Engineer ● ランニング🏃 サウナ🧖 飲酒🍻 ● 好きなパッケージ： context © 2026 UPSIDER.inc 2

Kesin 2026/02/21

LLM
開発

リンク

Claude and Codex are now available in public preview on GitHub - GitHub Changelog

Menu. Currently selected: Claude and Codex coding agents are now in public preview Claude and Codex coding agents are now in public preview Claude by Anthropic and OpenAI Codex are now available as coding agents for Copilot Pro+ and Copilot Enterprise customers. You can start agent sessions and assign work to these agents from github.com, GitHub Mobile, and VS Code. You can do this directly from i

Kesin 2026/02/05

GitHub Copilot coding agentでClaudeとCodexを利用可能になる機能がpublic preview。ただし最上位プランのCopilot+とCopilot Enterpriseのみ。去年発表されたAgentHQなる構想がついに表に出てきたか

github
LLM

リンク

Use your LM Studio Models in Claude Code

With LM Studio 0.4.1, we're introducing an Anthropic-compatible /v1/messages endpoint. This means you can use your local models with Claude Code! LM Studio and Claude Code First, install LM Studio from lmstudio.ai/download and set up a model. Alternatively, if you are running in a VM or on a remote server, install llmster:

Kesin 2026/01/31

ローカルLLMを動かすLMStudioがClaude Codeから使えるようになった。今までもLiteLLMを噛ませてAnthropicのAPIに変換すれば使えたけど、この前のOpenRouterといいClaude Codeにネイティブ対応させるトレンドを感じる

LLM

リンク

GitHub MCP Server: New Projects tools, OAuth scope filtering, and new features - GitHub Changelog

Kesin 2026/01/31

GitHub MCPサーバーがアップデートされ、Projects関連toolsの集約でトークン効率が向上し、MCPに使用している認証（PAT、OAuth）のスコープに応じてtoolsがフィルターされることで権限の無いtoolをAIが空振りするのを防止

github
LLM

リンク

突撃！隣のClaude Code！！ - エムスリーテックブログ

AI・機械学習チームの髙橋です。みなさま、コーディングライフいかがお過ごしでしょうか。エムスリーでは、昨年初夏頃からエンジニアに対してClaude Codeの業務における無制限使用が解禁されています。現在ではほぼすべてのエンジニアが普段からClaude Codeを利用し、AIレビューやチーム内でのプラグインによるSkill共有が進んでいます！ということで今回は、以前の突撃！隣のキーボード M3 2024 - エムスリーテックブログのスピンオフとして、エムスリーのエンジニアメンバーが実際に利用している便利なClaude Codeのカスタマイズを募集し、紹介します！例のしゃもじ前置き：Claude Codeのカスタマイズとは Claude Codeではエージェントに対してユーザ・プロジェクト固有の指示や制約を与えることができます。昨今はSkillsが特に話題となっていますが、こ

Kesin 2026/01/30

Claude
LLM

リンク

ACP support in Copilot CLI is now in public preview - GitHub Changelog

GitHub Copilot CLI now implements the Agent Client Protocol (ACP), an industry-standard protocol for communication between AI agents and clients. This enables third-party tools, IDEs, and automation systems to integrate directly with Copilot’s agentic capabilities through an extensible interface. How it works You can start Copilot in ACP mode via stdio: copilot --acp Or connect via TCP on a specif

Kesin 2026/01/29

GitHub Copilot CLIがAgentとエディタを結ぶ仕様であるAgent Client Protocolをサポートした。クライアントのエディタとしてはZedが代表格っぽいがユースケースを見ると接続するのはエディタに限らない使い方が提案されている

github
LLM

リンク

Introducing the Agents tab in your repository - GitHub Changelog

We’ve redesigned where you manage Copilot coding agent tasks. We’re bringing a new look and feel to your mission control style view directly into your repository with a new Agents tab. Instead of navigating to a separate page, your agent sessions now live alongside your code, pull requests, and issues. View all sessions for the repository in one place, create new ones, and switch between tasks wit

Kesin 2026/01/29

coding agentの作業ログを一覧できるAgentタブがリポジトリに追加。coding agentのログからローカルのCopilot CLIにセッションを引き継ぐことができる機能も追加された

github
LLM

リンク

OpenCode + GitHub Copilotは安そうだけど沢山Premium Requestを消費する

※この記事は、2026/01/25 時点の情報です背景前提として、OpenCodeからGitHub Copilotを使うのはグレーゾーンであった。ただ色々あって2026/01/16にGitHub側でも使っていいよ、とアナウンスが出た。 GPT5.2、Codexはクレジットのレート(リクエスト、Premium Request)も安くて、昨日リリースのv1.1.35ではxhigh設定もできるようになった。それもあって、最近はOpenCode + GitHub Copilotを検証している。そんな中で書いたこのツイートが伸びてるけど、調べずに書いて誤解を招くところがあるので訂正を含めて調査した記録がこの記事です。結論はブログの表題です。どこがマズいか「OpenCode + GitHub Copilotは安そう」の部分が怪しかった。GitHub Copilotはサブスクリプション＋リクエ

Kesin 2026/01/28

純正のGithub Copilotハーネスだと1チャット1プレミアムリクエストだけど、3rd製だと違うということは裏で何らかの仕組みによって判断されているのかな

github
LLM

リンク

2026年1月版俺的AI駆動開発フロー&Tips

この記事は筆者がAI駆動開発を通して積み上げてきた開発フローやそのTipsを紹介するものであり、絶対的な正解を示したり、主義主張を押し付けたりするものではありません。どこから始めたらよいかわからない方や指針を求めている方の参考になれば幸いです。この記事ではコーディングエージェントのことをAIと表記します。前提："俺"の現状使っているAIとツール GitHub Copilot（Enterprise）：仕事メイン Claude Code（Max）：プライベートメイン Codex（主にAzure OpenAIのモデルで利用）メインはGitHub CopilotとClaude Codeです。本記事の内容もこの2つの最大公約数的な使い方になっています。 Codexはサブスクで常用できる環境がないので、かなり複雑な設計が必要な場面か、他ツール比較で確認したいときにスポットでAzure Ope

Kesin 2026/01/24

自分もissue, pull-requestでのレビュー派。慣れているのが最大の理由ではあるが、複数人で開発してる場合にコンテキストを残すという点でまだGitHubは便利。最近はcoding agentの起点になれるのも強い

リンク

はてなブックマーク

タグ

関連タグで絞り込む (17)

LLMに関するKesinのブックマーク (227)

お知らせ

今週のはてなブックマーク数ランキング（2026年4月第4週）

今週のはてなブックマーク数ランキング（2026年4月第3週）

今週のはてなブックマーク数ランキング（2026年4月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス