あれから進化的マージの試行錯誤を繰り返していたが、ついに相当性能が高そうなモデルが生まれた。 Umievo-itr012-Gleipnir-7Bである。 umiyuki/Umievo-itr012-Gleipnir-7B · Hugging Face ElyzaTasks100の平均スコアは3.91に達して、ついにGPT-3.5Turboのスコア(3.88)を上回ってしまった。 ただし、スコアが上回ってるからと言って性能が勝ってるというわけではない事に注意して欲しい。例えるなら、身長が高いからと言って強いわけではないみたいな話である。 前回の記事では少し誤解を招く書き方だったかもしれないが、そもそも7Bの小型日本語LLMなんてのは基本的にドアホである。間違ってもChatGPTの代わりに使えるなんて考えてはいけない。 とは言うものの、単なるドアホではスコア3.91なんて取れないという事もまた
![最近の7B小型日本語LLMはエージェントになれるのか?](https://cdn-ak-scissors.b.st-hatena.com/image/square/e3021c6c66a6395f8c64d14a6f2d5f81cb6d5bc8/height=288;version=1;width=512/https%3A%2F%2Fcdn-uploads.huggingface.co%2Fproduction%2Fuploads%2F630420b4eedc089484c853e8%2FFxUBzBUKpe_JSHSJufSv5.png)