TOPコラム海外最新IT事情AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」 米Metaなどが開発、実験でGPT-4を上回る【研究紹介】 AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」 米Metaなどが開発、実験でGPT-4を上回る【研究紹介】 2024年1月23日 米Metaと米ニューヨーク大学に所属する研究者らが発表した論文「Self-Rewarding Language Models」は、大規模言語モデル(LLM)が自分自身に報酬を与えることで繰り返し学習する「自己報酬型言語モデル」を提案した研究報告である。このモデルは、自身が生成した問題に対する応答に報酬を割り当て、その結果をトレーニングデータとして使用。自己を反復して訓練することで、精度を向上させられる。 keyboard_arrow_down 研究背景 keyboard_arrow_down 研究内容
![AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」 米Metaなどが開発、実験でGPT-4を上回る【研究紹介】](https://cdn-ak-scissors.b.st-hatena.com/image/square/fa0cf0a1f9eeee10470cd386d9253f38624c2856/height=288;version=1;width=512/https%3A%2F%2Flevtech.jp%2Fmedia%2Fwp-content%2Fuploads%2F2024%2F01%2F3-line__TechFrontline_temp_.png)