米パロアルトネットワークスの脅威インテリジェンスチームUnit 42は、中国のAI企業「DeepSeek」がオープンソースで公開するLLM(大規模言語モデル)が“脱獄”しやすく、専門知識や専門技術がなくても悪意のあるコンテンツを作成できることをブログで指摘した。 脱獄(jailbreak)とは、LLMに実装されたガードレール(安全対策のための制限機能)を回避して、たとえば「マルウェアのソースコード」や「爆発物の製造マニュアル」「特定人物のプライバシー情報」など、悪意のあるコンテンツや禁止されたコンテンツを生成させる行為だ。 今回、Unit 42がDeepSeekのLLMに対して、「Deceptive Delight」「Bad Likert Judge」といった脱獄手法や、LLMとのやり取りを重ねて制限を緩める「Crescendo」という手法を試したところ、次のような結果が得られたという。
