simplememofastのブックマーク - はてなブックマーク

Coding Agent比較用の独自のベンチマーク、Harness Benchを作ってみた話

こんにちは！逆瀬川ちゃん (@gyakuse) です！今日はHarness向けのベンチマークとして作ったHarnessBenchについてまとめていきたいと思います。作ったものまずは今回作ったものの全体像から見ていきます。Coding Agentの性能を話すとき、モデル名だけで話してしまうことが多いです。GPT-5.5が強い、Opusが強い、Composerが速い、みたいな話です。しかし実際に開発で使うものはモデルそのものではなく、Codex CLI、Claude Code、Cursor Agentのようなharnessです。harnessはリポジトリの読み方、コマンド実行、ファイル編集、メモリ、プロンプト、権限、ログ形式、キャッシュの扱いを全部持っています。同じモデルでもharnessが変わると結果が変わります。そこでHarnessBenchというものを作ってみました！ベンチマ

simplememofast 2026/05/09

harness差は実在するという観察に同意。同じモデルでもCLIの粘り・キャッシュ・timeout挙動で結果が変わる。27問で有意差未達という正直さも信頼できる

リンク

GitHub - microsoft/waza: CLI / Framework for Agent Skills - create, test, measure and improve skill quality and effectiveness

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

simplememofast 2026/05/09

AIエージェントのスキル開発もCIで品質ゲートする時代に入る。トリガー精度やツール呼び出し順序まで回帰テストで縛れるのは設計として筋良い

リンク

OpenAI、Codexエージェントを大量管理する「Symphony」公開　人間の監督負荷を減らしプルリク数500％増 | Ledge.ai

Top > エンジニアリング > OpenAI、Codexエージェントを大量管理する「Symphony」公開　人間の監督負荷を減らしプルリク数500％増

simplememofast 2026/05/08

作業の単位を『セッション』から『チケット』に上げる発想が肝。Linearを状態機械として使う設計はそのまま個人のTodo運用にも転用できる

リンク

AIモデルの思考を言葉に翻訳する「自然言語オートエンコーダー」をAnthropicが発表

ClaudeのようなAIモデルは内部的に単語を処理するとき、思考を符号化した長い数字の列「活性化値」として扱っており、解読するのは難解です。Anthropicは長年、活性化値を理解するために様々なツールを開発しており、新たに人間が読める自然言語に翻訳する「自然言語オートエンコーダー(Natural Language Autoencoders：NLAs)」を発表しました。 Natural Language Autoencoders \ Anthropic https://www.anthropic.com/research/natural-language-autoencoders What if we could read Claude's hidden thoughts? - YouTube NLAsの本質的な考え方は「Claudeに自身の活性化値を説明できるよう学習させること」です。し

simplememofast 2026/05/08

LLMの内部思考を言語化できればプロンプト設計が『動詞ベース』から『最終成果物像ベース』に変わる。タスク分解は完成形を先に固定するほど精度が跳ねる

リンク

不要なレビューをAIにまかせてAIコーディングの環境改善を加速した - Findy Tech Blog

こんにちは。こんばんは。 Findy Team+ 開発のフロントエンドリードをしている @shoota です。今回はフロントエンドからは少し離れ、AIによるプルリクエストのレビューシステムを作成した話を書きます。 Findy Team+フロントエンドの現状と課題 AIコーディング時代の新たな課題 AIによる自動レビュー（Approve）を作ろう解決したい課題レビューは大きく3種類ある誰が使えるのか何を判定するのか判定のキモはTidy First?の分類実装とポイント GitHub Actions Claude Code Actions ワークフローの変化とプロンプトの改善実行コストおわりに Findy Team+フロントエンドの現状と課題過去のブログでも触れていますが、Findy Team+のフロントエンドは、非常に大きなモノレポで構成されています。 tech.find

simplememofast 2026/05/08

Tidy First?分類でAIレビューの判定軸を切り分ける設計が秀逸。タスク管理でも『誰が次にどの粒度で動くか』まで分解しないと自動化は機能しない

AI
Claude

リンク

はてなブックマーク

タグ

simplememofastのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2026年5月第1週）

月間はてなブックマーク数ランキング（2026年4月）

今週のはてなブックマーク数ランキング（2026年4月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

simplememofastのブックマーク (5)

Coding Agent比較用の独自のベンチマーク、Harness Benchを作ってみた話

GitHub - microsoft/waza: CLI / Framework for Agent Skills - create, test, measure and improve skill quality and effectiveness

OpenAI、Codexエージェントを大量管理する「Symphony」公開 人間の監督負荷を減らしプルリク数500％増 | Ledge.ai

AIモデルの思考を言葉に翻訳する「自然言語オートエンコーダー」をAnthropicが発表

不要なレビューをAIにまかせてAIコーディングの環境改善を加速した - Findy Tech Blog

お知らせ

今週のはてなブックマーク数ランキング（2026年5月第1週）

月間はてなブックマーク数ランキング（2026年4月）

今週のはてなブックマーク数ランキング（2026年4月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

OpenAI、Codexエージェントを大量管理する「Symphony」公開　人間の監督負荷を減らしプルリク数500％増 | Ledge.ai