ブックマーク / note.com/eurekachan (1)

  • 日本の官公庁にある「よくある質問」をデータセットにまとめました|松xRのnote

    LLMをチューニングするにあたって、質の良い日語のInstructionデータセットがあるといいなぁと思いました。そこで、日の官公庁のWebサイトから「よくある質問」を手作業で抽出し、およそ22000件の質問と応答の形になっているデータセットとしてまとめました。 省庁の中でも、CC-BY-4.0(国際)互換のライセンスである「政府標準利用規約(第2.0版)」が明示されている組織からだけ取得しているので、データセットもCC-BY-4.0(国際)として利用できます。商用利用も可能です。著作権者は各省庁です。 ただ、自然言語処理なんてやったこともない素人が作ったデータセットなので、まだまだ改良の余地があるような気がします。よろしければぜひ、改良のためのアドバイスをいただけると嬉しいです! 正月休み、お時間のある方は、ぜひ試してみていただければ幸いです。 このデータセットについてこのデータは

    日本の官公庁にある「よくある質問」をデータセットにまとめました|松xRのnote
  • 1