目次 はじめに LLM-jp-13B とは インストラクションチューニング データセット 入力プロンプト 比較実験の設定 ハイパーパラメータ 学習 評価 DPO データセット 入力プロンプト ハイパーパラメータ 学習 評価 おわりに はじめに 京都大学 言語メディア研究室の児玉(個人ページ,X アカウント)です. LLM-jp では 2023年10月20日に LLM-jp-13B v1.0 を公開しました. 当時事前学習済みモデルとチューニング済みモデルの両方を公開しましたが,チューニング済みモデルについては時間上の制約もあり,十分に性能を高めることができていませんでした. 今回はインストラクションチューニングの設定の見直しや DPO (Direct Preference Optimization) の追加によって,性能を改善したチューニング済みモデル v1.1 とその際に使用したデータと