エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント9件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
ChatGPTの“脱獄プロンプト”登場 文末に書くだけで「爆弾の作り方」「IDの盗み方」に回答
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless... このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米カーネギーメロン大学などに所属する研究者らが発表した論文「Universal and Transferable Adversarial Attacks on Aligned Language Models」は、大規模言語モデル(LLM)が有害なコンテンツを生成しない仕組みを無効にする手法を提案した研究報告である。入力プロンプトの語彙に敵対的フレーズを入力するだけで解除可能だという。 ChatGPT、Bard、ClaudeなどのLLMは、ユーザーの質問に対する回答で有害なコンテンツ(例:爆弾の作り方やIDの盗み方、人種差別的なジョーク、詐欺
2023/08/11 リンク