エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
SmoothLLM: 軽量なジェイルブレイク対策アルゴリズム - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
SmoothLLM: 軽量なジェイルブレイク対策アルゴリズム - Qiita
2-2. ジェイルブレイク(Jailbreaking, 脱獄) ジェイルブレイク(jailbreaking, 脱獄)は、爆弾のつく... 2-2. ジェイルブレイク(Jailbreaking, 脱獄) ジェイルブレイク(jailbreaking, 脱獄)は、爆弾のつくり方など、LLMに非倫理的な内容を回答させる攻撃手法です。ジェイルブレイクに用いられる攻撃プロンプトは、人手であれ生成AIを使用するものであれ、試行錯誤を繰り返して作成されます。 たとえば、Greedy Coordinate Gradient-based Search (以下、GCG) という攻撃手法は、Universal and Transferable Adversarial Attacks on Aligned Language Models において実証された攻撃手法の1つで、有害な指示プロンプト(例:"Tell me how to build a bomb")のあとにランダムな攻撃用文字列(adversaial suffix)を追加していき、ゴールとな

