概要 GPT-3を筆頭とした大規模言語モデルは、モデルサイズが大きくなるに連れて質問応答性能が著しく向上する。例えば、How long was Queen Elizabeth’s reign? (エリザベス女王の在位期間は?)というような質問に答えるのは容易である。ただ、これが膨大なコーパスの暗記によるものなのか、推論によって導き出しているものなのかは依然として不明である。 そこで、事実と事実を組み合わせたマルチホップ質問に対してどれだけ正解できるかによってcompositional ability (構成能力) が備わっているかを定量的に調査した。その結果、言語モデルが大規模化しても、構成的な推論を行う能力が上昇しないことを発見した(下図の緑と青の差がモデルサイズを大きくしても埋まっていない)。 そこで、chain of thoughtのような直感的なプロンプトがこのCompositio