LLM 勉強会[B!]新着記事・評価 - はてなブックマーク

『LLM 勉強会』

「LLM-jp Toxicity Dataset」の公開
12 users
llm-jp.nii.ac.jp

日本語有害文書データセット「LLM-jp Toxicity Dataset」の公開についてお知らせいたします。 https://gitlab.llm-jp.nii.ac.jp/datasets/llm-jp-toxicity-dataset 本データセットは、有害文書検出技術の研究開発を目的として、Common Crawlコーパスから収集した日本語文書に対し、有害性に基づいて人手でラベル付けしたものです。有害かどうかのラベルに加え、猥褻、差別、暴力、違法行為などの有害性の中身についてもラベルが付与されています。全部で1,847件のラベル付き文書が含まれており、ライセンスはCC-BYで商用利用も可能です。是非ご活用いただければと思います。詳しくは、上記リポジトリのREADMEと以下の論文をご覧ください。 LLM-jp: A Cross-organizational Project for
- テクノロジー
- 2024/08/07 14:39
- dataset

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx