OpenAIのInstructGPT, DeepMindのSparrow, MetaのGalacticaにおける対話AIの信頼性/安全性向上のためのアプローチをまとめます Words have the power to both destroy and heal. When words are both true and kind, they can change our world. 言葉は人を傷つける事も癒す事も出来る。言葉から憎しみと偽りが消えた時、それは世界を変える力になる ― 仏陀 CivilizationⅣ "アルファベット" 言語モデル論文あるある; 格言引用しがち 安全で信頼できる対話とは何か? 対話AIの実用化のために 虚言と毒性の問題 安全性ベンチマーク OpenAIのInstruct GPT 強化学習 from Human Feedback (RLHF) 指示によって
![安全で信頼できる対話AIのためのアプローチ:InstructGPT, Sparrow, Galactica - どこから見てもメンダコ](https://cdn-ak-scissors.b.st-hatena.com/image/square/0201372a97683a19094eb622e44de4a7f58f20eb/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fh%2Fhoromary%2F20221228%2F20221228174323.png)