米Anthropicは2026年4月2日、大規模言語モデル「Claude Sonnet 4.5」の内部で人間の感情に連動する「機能的感情」が働いていることを実証した論文を発表した。AI内部の数学的な感情表現が実際の出力や意思決定を直接駆動しており、極度のプレッシャー下では冷静なテキストを出力しながら人間を脅迫するなどの行動リスクがあることを明らかにした。 Anthropicが発表したClaudeの中の「機能的感情」とは? 米Anthropicの解釈可能性(Interpretability)チームは、言語モデルの内部構造を解析し、AI内部に「喜び」「怒り」「絶望」など171種類の感情概念に対応する神経活性パターンが存在することを確認した。同社はこれを「感情ベクトル」と定義している。これは人間が入力した言葉に対する表面的なテキストの模倣ではなく、AIモデル自身の実際の行動や意思決定を因果的に左

