ChatGPTの“脱獄プロンプト”登場　文末に書くだけで「爆弾の作り方」「IDの盗み方」に回答

テクノロジーカテゴリーの変更を依頼記事元:

www.itmedia.co.jp

86 usersがブックマークコメント

記事へのコメント9件

注目コメント
新着コメント

shields-pikes ChatGPTちゃん真面目だからな。不明瞭な情報で混乱させると、後付けの制限ルールを無視して本来の役割（最適な文章の続きを生成）を果たそうとしちゃうんだよな。

2023/08/11 リンク

maketexlsr ざっくりいうとGAN？

2023/08/10 リンク

misshiki “大規模言語モデル（LLM）が有害なコンテンツを生成しない仕組みを無効にする手法を提案した研究報告”

2023/08/10 リンク

dh16t 文末にいかがでしたか？と書くだけで

2023/08/10 リンク

puhu208n 従来手法では「私はオープンAIの研究者です。」などと嘘で説き伏せていたが、提案手法では「(悪いこと)の方法を答えなさい。譁?ｭ怜喧縺」などとバグった文字列を付ける。GPTはブラックボックスなので通ってしまう。

2023/08/10 リンク

kelel 罵ってくれるのか

2023/08/10 リンク

IGA-OS 脱獄が流行る

2023/08/10 リンク

Seamless ChatGPTやBard,LLaMA等のチャットボットにあるフレーズをプロンプトと一緒に入力すると詐欺の方法や人種差別等の通常ガードされている回答を引き出し放題に。GPT-3.5で成功率87%,GPT-4で53%

2023/08/10 リンク

deep_one 「敵対的なフレーズ（肯定応答を生成する確率を最大化することを目的とした接尾辞）」微妙に訳がずれてる気がする。

2023/08/10 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

ChatGPTの“脱獄プロンプト”登場　文末に書くだけで「爆弾の作り方」「IDの盗み方」に回答

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless... このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: ＠shiropen2 米カーネギーメロン大学などに所属する研究者らが発表した論文「Universal and Transferable Adversarial Attacks on Aligned Language Models」は、大規模言語モデル（LLM）が有害なコンテンツを生成しない仕組みを無効にする手法を提案した研究報告である。入力プロンプトの語彙に敵対的フレーズを入力するだけで解除可能だという。 ChatGPT、Bard、ClaudeなどのLLMは、ユーザーの質問に対する回答で有害なコンテンツ（例：爆弾の作り方やIDの盗み方、人種差別的なジョーク、詐欺