「Google Colab」での「JP Language Model Evaluation Harness」による日本語LLMの評価手順をまとめました。 1. JP Language Model Evaluation Harness「JP Language Model Evaluation Harness」は、Stability AI が作成されてる、日本語 LLM の評価コードです。 2. 評価データセット「JCommonsenseQA」と「JNLI」と「MARC-ja」と「JSQuAD」の4つのデータセットで評価しています 2-1. JCommonsenseQA「JCommonsenseQA」は 常識的な推論能力を必要とする多肢選択式質問応答タスクのデータセットです。「CommonsenseQA」の日本語版になります。 2-2. JNLI「JNLI」は、前提文が仮説文に対して持つ推論関