はじめにはじめまして、ウイングアーク1stのこへもこと申します。 今回の記事では、大規模言語モデル(LLM: Large Language Models、以後LLM)の性能評価の裏側を紐解いていきたいと思います。 生成AI(Generative AI)、特にLLMの進化は目覚ましいものがあります。GPT-4o, Claude 3, Gemini 1.5, command R+など数々のモデルが登場し、その驚異的な能力により、自然言語処理(NLP)の分野だけでなく、多くの産業で応用が広がっています。(2024年5月時点) 多くの企業が自社のLLMの優れた性能をアピールしていますが、その発表を鵜呑みにすることは注意が必要です。各社の発表に対して、私たちが正しい目を養い、客観的かつ公正な視点でLLMを評価することが重要です。 本記事では、LLMの評価に使用される「MMLU」という指標をベースに、
![生成AIの能力をどう評価するか? ~激化するLLM競争を正しく見極めるために~|こへもこ](https://cdn-ak-scissors.b.st-hatena.com/image/square/8956b15f7fbde263e244ccbf5cc531d1a1efde86/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F142121571%2Frectangle_large_type_2_5cc56f11694d96b5741e65802953f915.jpeg%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)