権利者から許諾を得たゲームのシナリオを、LLM(大規模言語モデル)学習用の日本語のデータセットとして公開する「日本語オープンコンテンツデータセットプロジェクト」を、会社員で編集者の「松xR」さんが、個人でスタートした。 第1弾として、現在は解散している美少女ゲームブランドRosebleuの10作品(約550万文字)のシナリオデータをJSONL/TSV形式にコンバートし、商用利用可能なライセンス(Apache License 2.0)で公開した。 コンテンツは、Rosebleuの作品のうち、権利譲渡などがなされなかったもので、Rosebleu元代表・青猫氏から提供を受けたという。また、松xRさんが過去に作成した同人ゲームのシナリオ(約2万文字)と、一般人とお嬢様との会話のデータセット(約7000文字)も公開した。 「AI開発において、日本語の良質なエンターテイメントコンテンツが学習データとし