kybernetesのブックマーク - はてなブックマーク

日本の官公庁にある「よくある質問」をデータセットにまとめました｜松xRのnote
LLMをチューニングするにあたって、質の良い日本語のInstructionデータセットがあるといいなぁと思いました。そこで、日本の官公庁のWebサイトから「よくある質問」を手作業で抽出し、およそ22000件の質問と応答の形になっているデータセットとしてまとめました。省庁の中でも、CC-BY-4.0（国際）互換のライセンスである「政府標準利用規約（第2.0版）」が明示されている組織からだけ取得しているので、本データセットもCC-BY-4.0（国際）として利用できます。商用利用も可能です。著作権者は各省庁です。ただ、自然言語処理なんてやったこともない素人が作ったデータセットなので、まだまだ改良の余地があるような気がします。よろしければぜひ、改良のためのアドバイスをいただけると嬉しいです！正月休み、お時間のある方は、ぜひ試してみていただければ幸いです。このデータセットについてこのデータは
kybernetes 2024/01/01
リンク
1

はてなブックマーク