タグ

ブックマーク / note.com/fair_panda6914 (1)

  • 生成AIの能力をどう評価するか? ~激化するLLM競争を正しく見極めるために~|こへもこ

    はじめにはじめまして、ウイングアーク1stのこへもこと申します。 今回の記事では、大規模言語モデル(LLM: Large Language Models、以後LLM)の性能評価の裏側を紐解いていきたいと思います。 生成AI(Generative AI)、特にLLMの進化は目覚ましいものがあります。GPT-4o, Claude 3, Gemini 1.5, command R+など数々のモデルが登場し、その驚異的な能力により、自然言語処理(NLP)の分野だけでなく、多くの産業で応用が広がっています。(2024年5月時点) 多くの企業が自社のLLMの優れた性能をアピールしていますが、その発表を鵜呑みにすることは注意が必要です。各社の発表に対して、私たちが正しい目を養い、客観的かつ公正な視点でLLMを評価することが重要です。 記事では、LLMの評価に使用される「MMLU」という指標をベースに、

    生成AIの能力をどう評価するか? ~激化するLLM競争を正しく見極めるために~|こへもこ
    kiririmode
    kiririmode 2024/06/02
    LLMの性能評価指標としてのMMLU指標の概要・評価方法。内部ではプロンプトエンジニアリングとして0-shot Chain of Thoughtが使われている。
  • 1