データセット概説 後述の「測れる能力」はチャットモデルを前提にする場合、指示に応答する能力も同時に測られる。 MARC-ja アマゾンのレビューに対してpositive、negativeのラベルをつけるタスク。選択肢はこの2つのみ。JGLUE。 測れる能力:文意を汲み取る力 JCoLA Japanese Corpus of Linguistic Acceptabilityの略。ある文章が日本語として成り立っているか(容認できるか)を判定するタスク。同じことを表す二つの文章が提示され、どちらがより自然な表現かを回答する。JGLUE。 測れる能力:日本語の構成能力(ネイティブ力?) 参考 paper presentation JSTS 文章ペアがどの程度似ているかを[0, 5]の範囲で答えるタスク。完全一致で5、完全に違う場合に0。JGLUE。 測れる能力:日本語の表現の意味理解とニュアンス?