このたび以下の2種類のデータを公開しましたので,簡単にご紹介いたします. 日本語指示データ 大規模言語モデル(LLM)の開発に必要なものの1つは高品質なデータです. 英語では様々なデータが公開されていますが,日本語ではまだ少ないのが現状です. そこで,LLM研究の一助となるよう,小規模ではありますが,人力で作成した日本語指示データmegagonlabs/instruction_jaを公開いたします. このデータは以下の特徴をもちます. オープンソースライセンス 社会や料理など様々な話題を含む対話 自然な日本語表現からなる対話 この1と2を満たすデータとしてAnthropicが英語の指示データを公開しています.そしてそれを元に機械翻訳した日本語の指示データが,有志によって公開されています.今回それをもとに,3を満たすために人手による補足や日本語表現の変更といった改変を行いました. (改変の結