エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
生成AIの能力をどう評価するか? ~激化するLLM競争を正しく見極めるために~|こへもこ
はじめにはじめまして、ウイングアーク1stのこへもこと申します。 今回の記事では、大規模言語モデル... はじめにはじめまして、ウイングアーク1stのこへもこと申します。 今回の記事では、大規模言語モデル(LLM: Large Language Models、以後LLM)の性能評価の裏側を紐解いていきたいと思います。 生成AI(Generative AI)、特にLLMの進化は目覚ましいものがあります。GPT-4o, Claude 3, Gemini 1.5, command R+など数々のモデルが登場し、その驚異的な能力により、自然言語処理(NLP)の分野だけでなく、多くの産業で応用が広がっています。(2024年5月時点) 多くの企業が自社のLLMの優れた性能をアピールしていますが、その発表を鵜呑みにすることは注意が必要です。各社の発表に対して、私たちが正しい目を養い、客観的かつ公正な視点でLLMを評価することが重要です。 本記事では、LLMの評価に使用される「MMLU」という指標をベースに、
2024/06/02 リンク