GENIAC 松尾研 LLM開発プロジェクトメンバーのMitsuhashiです。 プロジェクト期間中に取り組んだ内容をまとめます。 概要 本記事は、プロンプト進化という手法を用いた日本語選好データセットの構築に関する記事です そもそも日本語の指示応答データセットが少ない、特に後述する選好データセットが少ない、という致命的な問題に対して、既存のデータセットを拡張して日本語のデータセットを確実に増やすことを目的として取り組みました 本記事で紹介するデータセットはaya-ja-evol-instruct-calm3-dpo-maskedです 上記の基となったaya-ja-nemotron-dpoも公開します 選好データセットとは ユーザーが入力したと想定する質問文に対して、好ましい応答と、好ましくない応答がペアになったデータセットのことを、本記事では選好データセットと呼びます プロジェクト当時の