kiririmodeのブックマーク - はてなブックマーク

kiririmode id:kiririmode

ブックマーク / note.com/fair_panda6914 (1)

生成AIの能力をどう評価するか？ ~激化するLLM競争を正しく見極めるために~｜こへもこ
はじめにはじめまして、ウイングアーク１ｓｔのこへもこと申します。今回の記事では、大規模言語モデル（LLM: Large Language Models、以後LLM）の性能評価の裏側を紐解いていきたいと思います。生成AI（Generative AI）、特にLLMの進化は目覚ましいものがあります。GPT-4o, Claude 3, Gemini 1.5, command R+など数々のモデルが登場し、その驚異的な能力により、自然言語処理（NLP）の分野だけでなく、多くの産業で応用が広がっています。（2024年5月時点）多くの企業が自社のLLMの優れた性能をアピールしていますが、その発表を鵜呑みにすることは注意が必要です。各社の発表に対して、私たちが正しい目を養い、客観的かつ公正な視点でLLMを評価することが重要です。本記事では、LLMの評価に使用される「MMLU」という指標をベースに、
kiririmode 2024/06/02
LLMの性能評価指標としてのMMLU指標の概要・評価方法。内部ではプロンプトエンジニアリングとして0-shot Chain of Thoughtが使われている。

llm

ai

performance

promptengineering
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx