米Microsoftと中国科学院の研究者が「WizardMath」という大規模な数学特化の言語モデルを開発した(論文、ITmedia)。 このモデルは、数学的な推論能力を向上させることを目指している。このモデルは、オープンソースの事前学習済み大規模言語モデル(LLM)である「Llama-2」に対して適用することで実現する。Llamaモデルシリーズはオープンソースの大規模言語モデルで、クローズドソースのモデルとの差を縮める役割を果たしているが、数学や科学のような多段階の推論が求められる場面には課題があったとされる。 研究ではこの問題点に着目し、Llama-2の数学的推論能力を向上させる手法「WizardMath」を提案。「Reinforcement Learning from Evol-Instruct Feedback」(RLEIF)という新しい手法を用いてLlama-2の数学的推論能力を