⚡️New paper!⚡️ It’s tempting to interpret chain-of-thought explanations as the LLM's process for solving a task. In this new work, we show that CoT explanations can systematically misrepresent the true reason for model predictions.https://t.co/ecPRDTin8h 🧵 pic.twitter.com/9zp5evMoaA — Miles Turpin (@milesaturpin) May 9, 2023 著者の方が Twitterでまとめられていたので、これをざっくりリストするとこんな感じになるかと思います。 バイアスのかかったCoTによって誤っ
![言語モデルはバイアスに左右されやすい(CoTプロンプトの研究論文を読む)|mah_lab / 西見 公宏](https://cdn-ak-scissors.b.st-hatena.com/image/square/e77aef91ba6d5f3d4f441b1cba114722650b2e3f/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F106389005%2Frectangle_large_type_2_6c183c8354b57f45b8fe19d1b75863e4.png%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)