エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
KARAKURI LM を ELYZA-tasks-100 で評価してみた - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
KARAKURI LM を ELYZA-tasks-100 で評価してみた - Qiita
TL;DR KARAKURI LM を ELYZA-tasks-100 ベンチマークで評価したところ、これまで評価したオープンアクセ... TL;DR KARAKURI LM を ELYZA-tasks-100 ベンチマークで評価したところ、これまで評価したオープンアクセスモデルのなかで最高スコアをマークしました。 KARAKURI LM について KARAKURI LM は、AIチャットボットなどのサービスを提供するカラクリが開発した国産LLMです。 公式テックブログによると、日本語LLM用ベンチマークである MT-Bench-jp において「日本語のオープンモデルのなかで最高性能を記録」しているとのことです。 デモを触ってみると、たしかに自然な日本語で対話できている印象を受けますが、実際にどの程度の性能があるのか、ELYZA が公開しているベンチマーク用データセット ELYZA-tasks-100 で評価してみました。 評価方法 前回の記事「ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた」と同