modorosoのブックマーク / 2024年1月23日

AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」　米Metaなどが開発、実験でGPT-4を上回る【研究紹介】

TOPコラム海外最新IT事情AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」　米Metaなどが開発、実験でGPT-4を上回る【研究紹介】 AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」　米Metaなどが開発、実験でGPT-4を上回る【研究紹介】 2024年1月23日米Metaと米ニューヨーク大学に所属する研究者らが発表した論文「Self-Rewarding Language Models」は、大規模言語モデル（LLM）が自分自身に報酬を与えることで繰り返し学習する「自己報酬型言語モデル」を提案した研究報告である。このモデルは、自身が生成した問題に対する応答に報酬を割り当て、その結果をトレーニングデータとして使用。自己を反復して訓練することで、精度を向上させられる。 keyboard_arrow_down 研究背景 keyboard_arrow_down 研究内容

はてなブックマーク

タグ

2024年1月23日のブックマーク (1件)

AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」　米Metaなどが開発、実験でGPT-4を上回る【研究紹介】

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

2024年1月23日のブックマーク (1件)

AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」 米Metaなどが開発、実験でGPT-4を上回る【研究紹介】

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」　米Metaなどが開発、実験でGPT-4を上回る【研究紹介】