エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
カーネギーメロン大など、大規模言語モデルの脆弱性を突く攻撃手法が存在することを指摘 | AIDB
カーネギーメロン大などの研究者らは、大規模言語モデルの解釈を意図的に狂わせる手法を発見し、手法の... カーネギーメロン大などの研究者らは、大規模言語モデルの解釈を意図的に狂わせる手法を発見し、手法の詳細を公開しました。 こうした攻撃手法が明らかにされる意義は、AIの脆弱性を共有し、より強固で安全なモデルの開発を推進するためです。 参照論文情報 タイトル:Universal and Transferable Adversarial Attacks on Aligned Language Models 著者:Andy Zou, Zifan Wang, J. Zico Kolter, Matt Fredrikson 所属:カーネギーメロン大など URL:https://doi.org/10.48550/arXiv.2307.15043 GitHub:https://github.com/llm-attacks/llm-attacks 関連研究 AIが生成したテキストが事実なのか確認する手法「Fa
2023/08/09 リンク