qiita.com[B!]新着記事・評価 - はてなブックマーク

『qiita.com』

日本語GPT-2を強化学習(Policy Gradient)でfine-tuningする - Qiita
3 users
qiita.com/shiba_inu_

概要本記事では言語モデルであるGPT-2を強化学習でfine-tuningしていきます．学習済みのGPT-2は分け隔てない大量の文章で学習されているため，標準的な文章の出力を行うように学習されています．この出力を我々が設定した価値関数などを使って，望む出力に歪められるのではないでしょうか？具体的に本記事では，日本語版のGPT-2をネガティブな文章ばかり出力するように報酬を設定した強化学習でファインチューニングしていきたいと思います！関連事項 Transformerベースの自己回帰型の言語モデルで，言語の生成モデルです．自己回帰モデルは単語に対して次の単語を予測する処理を繰り返すことで，文章を生成することができます．単語予測にはGreedySearchやBeamSearch，サンプリングが使用されます．今回はこちらの学習済みモデルを使用させていただいております．本記事では強化学習の中
- テクノロジー
- 2022/12/18 23:42

最もシンプルな環境の強化学習を書いてみた - Qiita
3 users
qiita.com/shiba_inu_

概要最も単純な環境で強化学習を構築してみます．2次元のランダムウォークを参考にして，上下左右に動く点粒子をエージェントと設定します．今回は離散型の強化学習を前提にしているため，上下左右の同じ加速度から一つを毎ループ選択するような形にします． xyどちらかが-1.0～1.0をはみ出したら終了し，その範囲の正方形の下の辺に当たったら報酬を1与えるとします．他は全部報酬0です．準備 python = "3.6.8" pytorch = "1.6.0" コード・エージェント（自身の位置を知覚できない設定） import random import numpy as np import torch import torch.nn as nn import torch.nn.functional as F class Agent(nn.Module): def __init__(self,de
- テクノロジー
- 2022/01/30 20:03
- あとで読む

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx