タグ

ブックマーク / zenn.dev/pharmax (3)

  • GPT-4o-miniのファインチューニングのすゝめ

    突然ですが、みなさんLLMのファインチューニングしていますか? 個人的な感想かもしれませんが、ファインチューニングは、幻滅期に入っているように感じています。 GPT-3.5 Turboのファインチューニングが発表されて以降、ファインチューニングしても思ったような出力をしてくれないので、ファインチューニングに期待しないという意見がちらほら聞こえてきました。 ファインチューニングするぐらいなら、Few-shotなどのプロンプトエンジニアリング技法を駆使した方が、結果的には求めている出力をしてくれると考えている方も多かったのではないでしょうか。 正直、私自身もそうでした。 ファインチューニングは、データセットを準備するのも大変ですし、正直コスパがよくないなと感じていました。 実際、プロンプトのチューニングは高速でPDCAを回せるので、ファインチューニングを反復するよりも遥かに高速なフェードバック

    GPT-4o-miniのファインチューニングのすゝめ
  • LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解説

    前回の記事でLLMアプリケーションの評価について基礎から運用まで丁寧に解説いたしました。 この記事では、評価方法の一部であるLLM-as-a-Judgeについて詳しく解説したいと思います。 LLMアプリケーションの評価といえば、LLM-as-a-Judgeだというように結びつける方もいらっしゃいますが、必ずしもそうではありません。 というのも、LLMアプリケーションの評価には、LLM以外で評価するLLM-as-a-Judge以外にもいろんな方法や観点があるからです。 評価方法や指標について多くの論点が、LLMアプリケーションに限らず、機械学習アプリケーション全般に共通しています。 この10年ぐらいで、機械学習アプリケーションの評価についてはかなりの議論がなされてきており、ある程度成熟してきました。 一方、LLMでLLMの出力を評価するLLM-as-a-Judgeについては、GPT-3.5や

    LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解説
  • 負荷テストツール「k6」入門

    こんにちは。 PharmaX でエンジニアをしている諸岡(@hakoten)です。 この記事の概要 API負荷テストツールにGrafana Labs社が開発している「k6」というツールがあります。 k6はオープンソースのCLIツールですが、 「Grafana Cloud k6」というクラウドベースSaaSツールも提供されている便利なツールです。 ローカルのk6は、負荷テストの時に使ったことはあったのですが、真面目に負荷テストの設計をするにあたり、ちゃんと理解したかったため、改めて基から調べてみました。k6の入門記事としてお役に立てれば嬉しいです。 インストール Macでは、k6を「Homebrew」でインストールすることができます。

    負荷テストツール「k6」入門
    shion214
    shion214 2024/02/10
  • 1