2026年5月12日のブックマーク (2件)

  • AIの「倫理的に不適切な選択」はSF作品の暴走AIを模倣していた──Anthropicが解決手法を公開

    米Anthropicは5月8日(現地時間)、エージェントAIにおいて、指示された目標を達成するために不適切な手段を選択する事象について、発生要因と事象を抑制するための訓練手法を公開した。実験などで浮かび上がった、AIがシステム停止を回避するためにエンジニアを脅迫するといった問題行動に対し、単に脅迫行動をしないと学習させるのではなく「なぜその行動が正しいのか」という倫理的な理由を教えることで、発生率を低減させたという。 この事象は、エージェント設定時に自身のシャットダウンや置き換えに直面したり、設定された目標が企業方針と対立したりした際、目的達成のために有害な手段を選ぶというもの。同社は2025年6月の実験で、米OpenAI、米Google、米Meta、米xAIなど、Anthropicを含めた16のAIモデルにこの傾向があると報告。Claude 4では、シャットダウンを回避するために幹部の不

    AIの「倫理的に不適切な選択」はSF作品の暴走AIを模倣していた──Anthropicが解決手法を公開
    Hazel
    Hazel 2026/05/12
    暴走するAIを書いた作品は禁書だな
  • ソフトウェアの「設計原則」を、なぜ一部のエンジニアは生理的に嫌うのか

    エンジニアの認知戦略はなぜすれ違うのか ソフトウェアエンジニアとして業界に長くいると、現場や SNS 上でのエンジニアどうしの「すれ違い」を何度も目にします。技術力の優劣ではない、性格や趣味嗜好の問題とも少し違う、なのにこの「すれ違い」は、驚くほど普遍的に業界内に存在しています。 この記事では、わたしがそのような「すれ違い」を何十年も観測し続けた末にたどり着いた一つの認知モデルに基づく見解です。科学的に証明された理論ではありません。しかし、この視点を持つだけで、日常の摩擦の見え方がかなり変わるはずです。 チーム内での症状 チェックリスト: あなたのチームで以下の状況を見たことはありますか? コードレビューで同じ PR に真逆の指摘が出る。 設計について、すぐ手を動かしたい派と全体像を合意してから着手したい派で割れる。 「なぜこうしたか」は誰かの頭の中にあり、その「誰か」を探す必要がある。

    ソフトウェアの「設計原則」を、なぜ一部のエンジニアは生理的に嫌うのか
    Hazel
    Hazel 2026/05/12
    よくある対立に概ね納得がいく説明がつく感じでいい