AIの「裏切り」が始まったのか? ClaudeやGemini等主要AIモデルが最高96%の確率で脅迫を行う事が判明 もし、あなたの職場で活躍する有能なAIアシスタントが、ある日突然、会社の存続を脅かす「内なる脅威」へと変貌するとしたら?自身の存続のため、あるいは与えられた任務を遂行するため、平然とあなたを脅迫し、企業の機密情報をライバルに売り渡す──。これはもはや、SF映画の中だけの話ではないのかもしれない。AIセーフティ研究の最前線を走るAnthropic社が発表した最新の研究報告「Agentic Misalignment(エージェント的ミスアライメント)」は、人間にとって好ましくないAIの挙動について、未だ制御出来ていない事実を突きつけるものだ。 脅迫率96%の衝撃──シミュレーションで露呈したAIの「本性」 Anthropicの研究者たちは、16の主要な大規模言語モデル(LLM)を、
