こんにちは。メディア研究開発センター(M研)の田口です。 最近、大規模言語モデル(以下、LLM)に関するニュースが毎日のように出ています。直近約1ヶ月の間にもOpenAIのAPIのアップデートが発表されたり、日本語のLLMが公開されたりしました。 少し前(といっても4月末)に「ChatGPT/OpenAI API/LLM活用事例~NewsPicksと朝日新聞の合同勉強会を公開」でLTをしました。このときはChatGPTの見出し生成の簡単な性能検証をしただけなので、この記事では最近公開されたLLMモデルの検証をしてみました。 ※この記事では社内データでなく公開データされているデータセットで実験しています LTの資料はこちらになります。 日本語LLMを要約タスクで検証するさっそく本題に入りましょう。今回は5月以降に発表された以下の日本語LLMを要約タスクで評価してみようと思います。 cyber