こんにちは!逆瀬川ちゃん (@gyakuse) です! 今日はHarness向けのベンチマークとして作ったHarnessBenchについてまとめていきたいと思います。 作ったもの まずは今回作ったものの全体像から見ていきます。Coding Agentの性能を話すとき、モデル名だけで話してしまうことが多いです。GPT-5.5が強い、Opusが強い、Composerが速い、みたいな話です。 しかし実際に開発で使うものはモデルそのものではなく、Codex CLI、Claude Code、Cursor Agentのようなharnessです。harnessはリポジトリの読み方、コマンド実行、ファイル編集、メモリ、プロンプト、権限、ログ形式、キャッシュの扱いを全部持っています。同じモデルでもharnessが変わると結果が変わります。 そこでHarnessBenchというものを作ってみました! ベンチマ

