大規模言語モデルには、有害なコンテンツを出力しないようなセーフガードが設けられています。プリンストン大学、バージニア工科大学、IBMリサーチ、スタンフォード大学の研究チームがOpenAIのGPT-3.5 TurboとMetaのLlama-2-7b-Chat大規模言語モデルを検証した結果、小規模なファインチューニングでセーフガードを外すことができたと報告しています。 [2310.03693] Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! https://arxiv.org/abs/2310.03693 AI safety guardrails easily thwarted, security study finds • The Register https:
![GPTやLlamaなどの大規模言語モデルはファインチューニングで簡単に脱獄可能だという研究結果](https://cdn-ak-scissors.b.st-hatena.com/image/square/a98db21355e366c5e6c17f19c588fa5b99dfd8da/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2023%2F10%2F17%2Fgpt-llama-safety-jail-break%2F00_m.png)