ReAct: Synergizing Reasoning and Acting in Language Models (言語モデルにおける推論と行動の相乗効果) 1. はじめに近年、思考の連鎖 (CoT: Chain of Thought) を促した言語モデルは、さまざまな算術、常識推論タスクに優れ、創発的な能力を発揮します。ただし、独自の内部表現を使用するため、リアクティブに探索・推論したり、知識を更新したりする能力が制限されます。 一方、最近の研究では、事前学習済み言語モデルで「テキストコンテキスト」を「テキスト行動」にマッピングすることで、さまざまなインタラクティブ環境 (例: テキストゲーム、Webナビゲーション、ロボティクス) で行動を決定しています。ただし、それらは多段階の目標について抽象的に推論したり、作業記憶を維持したりしません。 「ReAct: Synergizing R