以下で今回使用する三つのタスクについて紹介します。 XL-Sum:2021年に公開された44言語を含むニュース要約データセットです。BBCの記事の本文やヘッドラインの要約文から作られていて、本文から要約文を生成するタスクです。 人手評価や自動評価で高品質であることが示されています。 日本語の部分は合計8891本文-要約ペアがあり、GPTの応用先として要約が期待されているためこのタスクを採用しています。 本実験ではROUGEを評価指標として自動評価を行います。 JNLI:2022年に公開された日本語言語理解ベンチマークJGLUEのタスクです。 2つの文の間に含意関係があるかを含意/中立/矛盾の3段階で判定する自然言語推論(Natural Language Inference, NLI)タスクで、BERT系モデルの評価でよく使われています。 日本語GPTに対しては、入力の文ペアをモデルに与えて