理化学研究所 革新知能統合研究センター言語情報アクセス技術チームの関根聡チームリーダーらの研究グループは、国立情報学研究所の呼びかけで発足したLLM勉強会の協力のもと、より安全で信頼性の高い大規模言語モデル(LLM)の実現を目指す日本語データセット「AnswerCarefully」を開発し、バージョン1.0を4月30日に公開した。Citadel AIは、同データセットの開発に協力している。 今回、バージョン1.0が公開されたAnswerCarefullyデータセットには、日本語で書かれた有害なコンテンツやバイアスが含まれるテキストデータと、それに対してLLMに求められる適切な回答例が収集されており、LLMの学習や評価に使用できる。 AnswerCarefullyデータセットをオープンソースで公開し、LLM開発者による研究用途、商業用途を問わない活用を可能にすることで、成果を広く社会に還元し