タグ

ブックマーク / zenn.dev/aircloset (1)

  • AIがコードを書く時代になるまでの90年をまとめてみた

    TL;DR GitHub issueの自動解決能力を測るSWE-bench Verifiedが15ヶ月で33%から80%へ急速に進化しました(Claude Opus 4.5)。記事では、形式手法・帰納的学習・エージェント研究という三つの流れが2020年代に収束した結果と捉えています。 ただし80%はベンチマーク飽和の兆候でもあり、SWE-bench Proでは40%台に落ちます。評価は次々と難しいベンチマークへ移行しています。 生産性への影響は文脈に依存します。ジュニア開発者や不慣れなコードベースでは効果的ですが、熟練開発者が慣れた環境で使うと逆効果という報告もあります。むしろ質的変化として、エンジニアの役割は「コード作成者」から「AIの監督者」へ移行しています。 大規模言語モデル(LLM)の能力については学術的議論が続いています。「洗練されたパターンマッチング」という批判と「創発的な理

    AIがコードを書く時代になるまでの90年をまとめてみた
  • 1