概要 大規模言語モデル(以下、LLM)は、「単なる」浅いパターンマッチャー、「単なる」大規模ルックアップテーブル、「単なる」オートコンプリートエンジンであると言われることがある。これらの比較は、一種の(方法論的)還元主義である。このような比較は、ある種の真実である一方、誤った、あるいは少なくとも明らかに真実ではない結論を持ち込んでいるように思う。 例えば、LLMがやっていることは単なる丸暗記や巧妙な手品に過ぎず、分布外のデータには一般化できないと暗示しているようだ。実際、LLMは一般的なアルゴリズムを学習することができ、私たちが使っているものと同じような世界の表現を含んで使うことができることを示唆する経験的証拠がある。 また、LLMは単に次のトークンを予測することに最適化しているだけだとも言われているようだ。LLMが(主に)ネクストトークン予測で訓練されているのは事実であり、それがLLMの