Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに huggingfaceにはTRL(Transformer Reinforcement Learning)というライブラリがあります。これは、LLMをチューニングする際の、Instruction Tuning、報酬モデルの学習、PPOによるLLMのチューニング、をフルスタックで提供してくれるライブラリです。 今回はその中でもSFTTrainerに焦点を当てて使い方を詳しめに解説していきます。 SFTTrainerでできること 以前、huggingfaceのtransformersに紐づくTrainerクラスの紹介をしました。 h
