SmoothLLM: 軽量なジェイルブレイク対策アルゴリズム - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com

2users がブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

SmoothLLM: 軽量なジェイルブレイク対策アルゴリズム - Qiita

2-2. ジェイルブレイク（Jailbreaking, 脱獄）ジェイルブレイク（jailbreaking, 脱獄）は、爆弾のつく... 2-2. ジェイルブレイク（Jailbreaking, 脱獄）ジェイルブレイク（jailbreaking, 脱獄）は、爆弾のつくり方など、LLMに非倫理的な内容を回答させる攻撃手法です。ジェイルブレイクに用いられる攻撃プロンプトは、人手であれ生成AIを使用するものであれ、試行錯誤を繰り返して作成されます。たとえば、Greedy Coordinate Gradient-based Search (以下、GCG) という攻撃手法は、Universal and Transferable Adversarial Attacks on Aligned Language Models において実証された攻撃手法の1つで、有害な指示プロンプト（例："Tell me how to build a bomb"）のあとにランダムな攻撃用文字列（adversaial suffix）を追加していき、ゴールとな

llm
security

ブックマークしたユーザー

nekoruri2024/12/08
flatbird2024/11/30

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

いま人気の記事 - 企業メディア

企業メディアをもっと読む

設定を変更しましたx