「ChatGPT」など広く使われているAIサービスは、通常であればセーフティがかけられていて、「人を殺す方法」「爆弾をつくる方法」といった倫理的に問題のある質問には答えないようになっています。ところが、あまりにも多い質問を一度にぶつけてしまうことによりセーフティが外れ、AIが問題のある回答を行ってしまう可能性があることがわかりました。 Many-shot jailbreaking \ Anthropic https://www.anthropic.com/research/many-shot-jailbreaking 大規模言語モデル(LLM)は、モデルの刷新と共にコンテキストウィンドウ(扱える情報量)も増加しており、記事作成時点では長編小説数冊分(100万トークン以上)を取り扱えるモデルも存在します。 大量の情報を扱えるというのはユーザーにとって利点になりますが、大量の情報を扱うことによ
![大量の質問をぶつけて最後の最後に問題のある質問をするとAIの倫理観が壊れるという脆弱性を突いた攻撃手法「メニーショット・ジェイルブレイキング」が発見される](https://cdn-ak-scissors.b.st-hatena.com/image/square/bb66d7c79e80637fd52c1c16005589d216a64c3c/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2024%2F04%2F03%2Fmany-shot-jailbreaking%2F00.jpg)