rinna社から、日本語に特化した強化学習済みの「対話GPT言語モデル:rinna/japanese-gpt-neox-3.6b-instruction-ppo」をオープンソースで公開したとの大ニュースがありましたので、早速ためしてみます!😀 無料のGoogle Colabで動くお試し用の簡易プログラムも作ってみましたので、ぜひお試しください。 1.モデル特徴(プレス文から)36億パラメータ(3.6B)を持つ汎用GPT言語モデルをベースに、対話GPT言語モデルへのfine-tuningと強化学習を行っています。 強化学習には、HH-RLHFの一部を日本語に翻訳したデータを用いています。 強化学習済みのモデルは、Hugging Faceに商用利用可能なMIT Licenseで公開されています。 特定の利用目的に対して性能を最適化させたい場合には、fine-tuningやin-context