タグ

LLMに関するKesinのブックマーク (227)

  • Unweight: how we compressed an LLM 22% without sacrificing quality

    Kesin
    Kesin 2026/04/19
  • Demystifying evals for AI agents

    Published Jan 09, 2026 The capabilities that make agents useful also make them difficult to evaluate. The strategies that work across deployments combine techniques to match the complexity of the systems they measure. IntroductionGood evaluations help teams ship AI agents more confidently. Without them, it’s easy to get stuck in reactive loops—catching issues only in production, where fixing one f

    Demystifying evals for AI agents
    Kesin
    Kesin 2026/04/11
    AnthropicのAIエージェントの評価の構築、運用のノウハウ
  • https://openai.com/ja-JP/index/unrolling-the-codex-agent-loop/

    Kesin
    Kesin 2026/04/05
    Responses APIはprevious_response_id⁠パラメータで全データを送らなくてもキャッシュを効かせらたはずだけど、Codexではゼロデータ保持(ZDR)をサポートするために使っていない、という話は知らなかった
  • Coding Agent時代のドキュメントについて考えていること

    こんにちは!逆瀬川ちゃん (@gyakuse) です! 今日はCoding Agent時代のドキュメントについて、最近考えていることを書いていきたいと思います。悩み中なので、荒れた内容になっていますが、ご容赦を。コード規模、チーム規模などなどによって、正解は異なるものだと思います。あくまで私の実践の一例として読んでくれれば幸いです。 以前書いたCoding Agent時代の開発ワークフローやClaude Codeのシステムプロンプト解説記事でCLAUDE.mdやAGENTS.md、ADRの運用について少し触れましたが、そもそもドキュメントって何のために書くんだっけ、Agentが読むドキュメントはどうあるべきなんだっけ、というところをもう少し掘り下げて考えたいなと思っていました。まだ結論が固まっているわけではないのですが、最近の実践から見えてきたことをまとめてみます。 そもそもドキュメントの

    Coding Agent時代のドキュメントについて考えていること
    Kesin
    Kesin 2026/03/19
    コードと同様にドキュメントに対しても自動的なフィードバックループをが働くようにツールを作る発想は面白い。コードと違って自由度が高すぎるので今後いろいろなアプローチが生まれてきそう
  • Training Composer for longer horizons · Cursor

    We train Composer for long-horizon tasks through a reinforcement learning process called self-summarization. By making self-summarization part of Composer's training, we can get training signal from trajectories much longer than the model's max context window. This translates into Composer being able to learn to work on challenging coding tasks requiring hundreds of actions. #The limits of compact

    Training Composer for longer horizons · Cursor
    Kesin
    Kesin 2026/03/19
    compactionの改善をプロンプトではなくてモデル自体に組み込んでしまうのはコーディング専門モデルならではなのかな。composerモデルの次バージョンの開発が進んでいるらしい
  • コーディングガイドライン運用をAIで自動化し、レビュー知見を資産化する | CyberAgent Developers Blog

    はじめに AmebaLIFE事業部でWebフロントエンドエンジニアをしている湯航基(@yu_3in)です。 記事では、PRレビューコメントをもとにコーディングガイドラインを継続的に更新する仕組みについて紹介します。 最近は、AIの支援を受けながら実装を進めることが当たり前になってきました。 その一方で、チームの中にある判断基準やレビュー観点が整理されていないと、成果物の品質は安定しません。 今回取り組んだのは、その判断基準をレビューの中から継続的に回収し、ガイドラインとして育てていく仕組みです。 やりたかったのは、PRレビューの中にある判断基準を、継続的に再利用できる形にすることでした。 課題 背景にあった課題は、大きく2つありました。 レビュー知見がPRの中に埋もれて、チームの資産になりにくい ガイドラインを作っても、更新されずに形骸化しやすい もちろん、一般的なベストプラクティス

    コーディングガイドライン運用をAIで自動化し、レビュー知見を資産化する | CyberAgent Developers Blog
    Kesin
    Kesin 2026/03/11
    今まで個人個人の暗黙知だったレビュー観点をAIに教えるための方法が今後流行っていきそうな予感
  • CLAUDE.mdに本当は何を書くべきなのか

    TL;DR CLAUDE.mdはSystem Promptではなく、User Messageとして注入される セッション後半になると影響力が薄れるため、セッションを通して守らせたいルールの置き場所には向かない CLAUDE.mdにはセッション開始時の作業を助ける情報だけを書き、ルールは .claude/rules/ に置く はじめに Claude Codeを使っている人なら、CLAUDE.mdに何を書くかで一度は悩んだことがあるのではないでしょうか。 コーディングルール、命名規則、テストの方針、コミットメッセージのフォーマット。色々なことを書いている人が多いと思います。自分もそうでした。 ただ、CLAUDE.mdの内部的な扱われ方を知ると、そこに書くべきものの考え方が結構変わります。結論から言うと、CLAUDE.mdにはセッション開始時の作業を助ける情報だけを書いて、ルールは .claud

    CLAUDE.mdに本当は何を書くべきなのか
    Kesin
    Kesin 2026/03/08
    確かに公式ドキュメントに書かれているCLAUDE.mdがユーザープロンプトに注入される振る舞いからから考えるとよく忘れられる理由もわかるし、.claude/rulesで遅延ロードされることの優位性も理解できる
  • skill-creatorから学ぶSkill設計と、Orchestration Skillの作り方

    Anthropic Engineering Blogはこの設計について「コンテキストウィンドウは公共財」と表現しています。あなたのスキルは他のスキルやシステムプロンプトと同じ空間を共有しているので、段階的に読み込むことが非常に重要になります。 MCPとの関係も整理しておきます。MCPがCoding Agentの「手足」(ツール・接続性)を提供するのに対し、Skillsは「脳内知識」(ワークフロー・ベストプラクティス)を提供します。公式ガイドのキッチンの比喩を借りれば、MCPが「プロフェッショナルキッチン」(道具・材・設備)で、Skillsが「レシピ」(手順書)にあたります。 編と関係ないですが、MCPについては以前MCP Lightというアイデアを記事にしました。MCPは良いキッチンなのですが、Context Windowを圧迫しやすくかつ命令予算を消費しがちなため、Skillと組み合

    skill-creatorから学ぶSkill設計と、Orchestration Skillの作り方
    Kesin
    Kesin 2026/03/05
    skill-creatorってそんなに高度なことになっていたのか
  • AIエージェントと協業するチームの始め方 - Cybozu Inside Out | サイボウズエンジニアのブログ

    この記事はkintoneの生成AIチームで連載中のkintone AIリレーブログ2026の7目の記事です。 リレーブログでは、生成AIチームのメンバーがAIトピックに限らずさまざまなことについて発信していきます。 こんにちは、kintoneの生成AIチームでエンジニアリングマネージャーをしている立山です。 みなさんのチームはAIを活用していますか?ここ最近はコーディングエージェントが高速にそこそこいいコードを作ってくれる時代で、個人の開発生産性は上がっていると思います。一方で、チームでAIを活用するというのはまだまだ限られているのではないでしょうか? この記事ではチームでAI、特に自律的に仕事を進めてくれるAIエージェントとの協業のはじめ方についてお話ししようと思います。 私たちのチームでは、AIエージェントとの協業を始めるにあたって、以下の3つに取り組みました。 仕事を言語化し、Ag

    AIエージェントと協業するチームの始め方 - Cybozu Inside Out | サイボウズエンジニアのブログ
  • Claude and Codex now available for Copilot Business & Pro users - GitHub Changelog

    Claude and Codex now available for Copilot Business & Pro users Claude by Anthropic and OpenAI Codex are now available as coding agents for Copilot Business and Copilot Pro customers. Copilot Enterprise and Pro+ customers received access earlier this month, and today we’re expanding availability to more teams. You can run Claude, Codex, and Copilot directly inside github.com, GitHub Mobile, and VS

    Claude and Codex now available for Copilot Business & Pro users - GitHub Changelog
    Kesin
    Kesin 2026/02/28
    GitHub上からGitHub Copilot Coding Agentの代わりにClaudeとCodexに依頼する機能が全プランで利用可能に。ポリシーでOpt inは必要。public previewの間はプレミアムリクエスト消費は1のみとのこと。これがAgentHQですか
  • なぜ、AIで生産性があがっていると錯覚してしまうのか

    1983年生まれ。筑波大学大学院を卒業後、2008年に新卒第1期として株式会社ミクシィに入社。アーキテクトとして、技術戦略から組織構築などに携わる。同社メディア開発部長、開発部部長、サービス部長執行役員を務めた後、2015年退社。現在は、株式会社レクターを創業し、技術と経営をつなぐ技術組織のアドバイザリーとして、多数の会社の経営支援を行っている。一般社団法人日CTO協会理事、朝日新聞社社外CTO。

    なぜ、AIで生産性があがっていると錯覚してしまうのか
    Kesin
    Kesin 2026/02/22
    2025年に各所で言われ始めていた生産性への疑念が整理された印象。最後のページに述べられていた従来は積み上げ方、AI時代は削り出し方という比喩も分かりやすい
  • AI時代のGo開発2026 爆速開発のためのガードレール | ドクセル

    AI時代のGo開発2026 爆速開発のためのガードレール UPSIDER Ryo Mimura 2026/02/21 Go Conference mini in Sendai 2026 © 2026 UPSIDER.inc 1 Presenter Profile 三村 遼 Ryo Mimura) @r4mimu 株式会社UPSIDER ● ● これまで ○ 社内CI/CD基盤・開発生産性 ○ BtoB SaaS プロダクトエンジニア 2025 ○ UPSIDER カード事業部 Backend Engineer ● ランニング🏃 サウナ🧖 飲酒🍻 ● 好きなパッケージ: context © 2026 UPSIDER.inc 2

    AI時代のGo開発2026 爆速開発のためのガードレール | ドクセル
  • Claude and Codex are now available in public preview on GitHub - GitHub Changelog

    Menu. Currently selected: Claude and Codex coding agents are now in public preview Claude and Codex coding agents are now in public preview Claude by Anthropic and OpenAI Codex are now available as coding agents for Copilot Pro+ and Copilot Enterprise customers. You can start agent sessions and assign work to these agents from github.com, GitHub Mobile, and VS Code. You can do this directly from i

    Claude and Codex are now available in public preview on GitHub - GitHub Changelog
    Kesin
    Kesin 2026/02/05
    GitHub Copilot coding agentでClaudeとCodexを利用可能になる機能がpublic preview。ただし最上位プランのCopilot+とCopilot Enterpriseのみ。去年発表されたAgentHQなる構想がついに表に出てきたか
  • Use your LM Studio Models in Claude Code

    With LM Studio 0.4.1, we're introducing an Anthropic-compatible /v1/messages endpoint. This means you can use your local models with Claude Code! LM Studio and Claude Code First, install LM Studio from lmstudio.ai/download and set up a model. Alternatively, if you are running in a VM or on a remote server, install llmster:

    Use your LM Studio Models in Claude Code
    Kesin
    Kesin 2026/01/31
    ローカルLLMを動かすLMStudioがClaude Codeから使えるようになった。今までもLiteLLMを噛ませてAnthropicのAPIに変換すれば使えたけど、この前のOpenRouterといいClaude Codeにネイティブ対応させるトレンドを感じる
  • GitHub MCP Server: New Projects tools, OAuth scope filtering, and new features - GitHub Changelog

    Kesin
    Kesin 2026/01/31
    GitHub MCPサーバーがアップデートされ、Projects関連toolsの集約でトークン効率が向上し、MCPに使用している認証(PAT、OAuth)のスコープに応じてtoolsがフィルターされることで権限の無いtoolをAIが空振りするのを防止
  • 突撃!隣のClaude Code!! - エムスリーテックブログ

    AI機械学習チームの髙橋です。 みなさま、コーディングライフいかがお過ごしでしょうか。 エムスリーでは、昨年初夏頃からエンジニアに対してClaude Codeの業務における無制限使用が解禁されています。 現在ではほぼすべてのエンジニアが普段からClaude Codeを利用し、AIレビューやチーム内でのプラグインによるSkill共有が進んでいます! ということで今回は、以前の突撃! 隣のキーボード M3 2024 - エムスリーテックブログのスピンオフとして、エムスリーのエンジニアメンバーが実際に利用している便利なClaude Codeのカスタマイズを募集し、紹介します! 例のしゃもじ 前置き:Claude Codeのカスタマイズとは Claude Codeではエージェントに対してユーザ・プロジェクト固有の指示や制約を与えることができます。 昨今はSkillsが特に話題となっていますが、こ

    突撃!隣のClaude Code!! - エムスリーテックブログ
  • ACP support in Copilot CLI is now in public preview - GitHub Changelog

    GitHub Copilot CLI now implements the Agent Client Protocol (ACP), an industry-standard protocol for communication between AI agents and clients. This enables third-party tools, IDEs, and automation systems to integrate directly with Copilot’s agentic capabilities through an extensible interface. How it works You can start Copilot in ACP mode via stdio: copilot --acp Or connect via TCP on a specif

    ACP support in Copilot CLI is now in public preview - GitHub Changelog
    Kesin
    Kesin 2026/01/29
    GitHub Copilot CLIがAgentとエディタを結ぶ仕様であるAgent Client Protocolをサポートした。クライアントのエディタとしてはZedが代表格っぽいがユースケースを見ると接続するのはエディタに限らない使い方が提案されている
  • Introducing the Agents tab in your repository - GitHub Changelog

    We’ve redesigned where you manage Copilot coding agent tasks. We’re bringing a new look and feel to your mission control style view directly into your repository with a new Agents tab. Instead of navigating to a separate page, your agent sessions now live alongside your code, pull requests, and issues. View all sessions for the repository in one place, create new ones, and switch between tasks wit

    Introducing the Agents tab in your repository - GitHub Changelog
    Kesin
    Kesin 2026/01/29
    coding agentの作業ログを一覧できるAgentタブがリポジトリに追加。coding agentのログからローカルのCopilot CLIにセッションを引き継ぐことができる機能も追加された
  • OpenCode + GitHub Copilotは安そうだけど沢山Premium Requestを消費する

    ※この記事は、2026/01/25 時点の情報です 背景 前提として、OpenCodeからGitHub Copilotを使うのはグレーゾーンであった。ただ色々あって2026/01/16にGitHub側でも使っていいよ、とアナウンスが出た。 GPT5.2、Codexはクレジットのレート(リクエスト、Premium Request)も安くて、昨日リリースのv1.1.35ではxhigh設定もできるようになった。 それもあって、最近はOpenCode + GitHub Copilotを検証している。そんな中で書いたこのツイートが伸びてるけど、調べずに書いて誤解を招くところがあるので訂正を含めて調査した記録がこの記事です。結論はブログの表題です。 どこがマズいか 「OpenCode + GitHub Copilotは安そう」の部分が怪しかった。GitHub Copilotはサブスクリプション+リクエ

    OpenCode + GitHub Copilotは安そうだけど沢山Premium Requestを消費する
    Kesin
    Kesin 2026/01/28
    純正のGithub Copilotハーネスだと1チャット1プレミアムリクエストだけど、3rd製だと違うということは裏で何らかの仕組みによって判断されているのかな
  • 2026年1月版 俺的AI駆動開発フロー&Tips

    この記事は筆者がAI駆動開発を通して積み上げてきた開発フローやそのTipsを紹介するものであり、絶対的な正解を示したり、主義主張を押し付けたりするものではありません。 どこから始めたらよいかわからない方や指針を求めている方の参考になれば幸いです。 この記事ではコーディングエージェントのことをAIと表記します。 前提:"俺"の現状 使っているAIとツール GitHub Copilot(Enterprise):仕事メイン Claude Code(Max):プライベートメイン Codex(主にAzure OpenAIのモデルで利用) メインはGitHub CopilotとClaude Codeです。記事の内容もこの2つの最大公約数的な使い方になっています。 Codexはサブスクで常用できる環境がないので、かなり複雑な設計が必要な場面か、他ツール比較で確認したいときにスポットでAzure Ope

    2026年1月版 俺的AI駆動開発フロー&Tips
    Kesin
    Kesin 2026/01/24
    自分もissue, pull-requestでのレビュー派。慣れているのが最大の理由ではあるが、複数人で開発してる場合にコンテキストを残すという点でまだGitHubは便利。最近はcoding agentの起点になれるのも強い