米OpenAIは7月17日(現地時間)、LLMの出力の信頼性と透明性を向上させるための新しいトレーニング方法を紹介する論文(PDF)を公開した。AIによる回答が本当に正しいのか、人間が理解しやすくするための取り組みだ。 このトレーニング方法は、「Prover-Verifier Games(証明者ー検証者ゲーム)」と」呼ばれるゲーム理論に基づいている。おおまかに説明すると、賢い「証明者」と証明者よりはるかに能力の低い「検証者」を用意し、証明者に問題を解決させ、その解決方法を検証者にも理解できるように説明させる。このトレーニングを繰り返すことで、証明者は説明能力が向上し、検証者は解決方法の問題点を見つける能力が向上する。 論文では小学校の算数の回答を判断する設定でトレーニングする方法を紹介している。 論文では、この方法によって、3つの成果が得られたとしている。 まず、読みやすさとパフォーマンス