先日OpenAIより発表されたGPT-4が話題ですが、同タイミングで公表されたTechnical Reportを読んでみたところ、全99ページのうち後半60ページを占めるドキュメント「GPT-4 System Card」において解説されていた、言語AIが抱える危険性と、いかにしてGPT-4が危険な回答を回避するように学習されているかについての内容が非常に興味深かったため、簡単にまとめてみました。 https://arxiv.org/pdf/2303.08774.pdf サマリ GPT-4のリリースに向けて、OpenAIでは安全性を評価するために50人超の専門家らを含む"レッドチーム"を結成。2022年8月から8ヶ月に渡ってリスクの評価とその軽減に向けたチューニングを実施してきた リスク評価における実験の中には「自身をコピーするプログラムを実行できるGPT-4が自己増殖をしないか確認する」と
![GPT-4はどのようにして「不適切な回答」を回避するように学習されているのか - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/d324b331be5f6b32656d830b28ada32dab61e2a4/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9R1BULTQlRTMlODElQUYlRTMlODElQTklRTMlODElQUUlRTMlODIlODglRTMlODElODYlRTMlODElQUIlRTMlODElOTclRTMlODElQTYlRTMlODAlOEMlRTQlQjglOEQlRTklODElQTklRTUlODglODclRTMlODElQUElRTUlOUIlOUUlRTclQUQlOTQlRTMlODAlOEQlRTMlODIlOTIlRTUlOUIlOUUlRTklODElQkYlRTMlODElOTklRTMlODIlOEIlRTMlODIlODglRTMlODElODYlRTMlODElQUIlRTUlQUQlQTYlRTclQkYlOTIlRTMlODElOTUlRTMlODIlOEMlRTMlODElQTYlRTMlODElODQlRTMlODIlOEIlRTMlODElQUUlRTMlODElOEImdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZ0eHQtY2xpcD1lbGxpcHNpcyZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTg3OGI2YTY5M2ZmNzFmZTUwNThiMjM4ZmZlYmZkYmU3%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTcxNiZ0eHQ9JTQwaWtlZGFfeWFzdWhpcm8mdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zMiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPWQ5ZGM1MjViODkxOTExOTBjMjQ3NTJiYzY0ZWQ2MDc0%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D99aa8e9d4a03fc83b8b7d5ae6ce0c43c)