TOPコラム海外最新IT事情AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」 米Metaなどが開発、実験でGPT-4を上回る【研究紹介】 AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」 米Metaなどが開発、実験でGPT-4を上回る【研究紹介】 2024年1月23日 米Metaと米ニューヨーク大学に所属する研究者らが発表した論文「Self-Rewarding Language Models」は、大規模言語モデル(LLM)が自分自身に報酬を与えることで繰り返し学習する「自己報酬型言語モデル」を提案した研究報告である。このモデルは、自身が生成した問題に対する応答に報酬を割り当て、その結果をトレーニングデータとして使用。自己を反復して訓練することで、精度を向上させられる。 keyboard_arrow_down 研究背景 keyboard_arrow_down 研究内容