developmasoのブックマーク - はてなブックマーク

OpenAIの蒸留機能(Model Distillation)を使って運用中のLLMのコストを削減する取り組み

私たちは以前にもGPT-4o-miniをファインチューニングして運用しているというお話をシェアして大きな反響いただきました。上の記事では、GPT-4oの出力を人手で修正（アノテーション）して、GPT-4-miniをファインチューニングする運用をご紹介していますが、蒸留はGPT-4oの出力をそのまま使用するのが大きな違いです。また、今回の発表の肝は、この蒸留をOpenAIのDashboad上で簡単に行えるようになったことです。ですが、他社さんでも実際に蒸留を使っているというお話はあまり聞ないので、蒸留の基本とModel Distillationの使い方をご紹介しつつ、使い所と注意点をシェアしたいと思います。 o1-previewとo1-miniが同時に発表されたことを見ても、今後も"高性能で高価なモデル"と"少し性能は劣るが安価なモデル"は（多少の時期の違いがあっても）セットでリリース

developmaso 2024/11/19

あとで読む

リンク

GPT-4o-miniのファインチューニングのすゝめ

突然ですが、みなさんLLMのファインチューニングしていますか？個人的な感想かもしれませんが、ファインチューニングは、幻滅期に入っているように感じています。 GPT-3.5 Turboのファインチューニングが発表されて以降、ファインチューニングしても思ったような出力をしてくれないので、ファインチューニングに期待しないという意見がちらほら聞こえてきました。ファインチューニングするぐらいなら、Few-shotなどのプロンプトエンジニアリング技法を駆使した方が、結果的には求めている出力をしてくれると考えている方も多かったのではないでしょうか。正直、私自身もそうでした。ファインチューニングは、データセットを準備するのも大変ですし、正直コスパがよくないなと感じていました。実際、プロンプトのチューニングは高速でPDCAを回せるので、ファインチューニングを反復するよりも遥かに高速なフェードバック

developmaso 2024/08/22

あとで読む

リンク

LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解説

前回の記事でLLMアプリケーションの評価について基礎から運用まで丁寧に解説いたしました。この記事では、評価方法の一部であるLLM-as-a-Judgeについて詳しく解説したいと思います。 LLMアプリケーションの評価といえば、LLM-as-a-Judgeだというように結びつける方もいらっしゃいますが、必ずしもそうではありません。というのも、LLMアプリケーションの評価には、LLM以外で評価するLLM-as-a-Judge以外にもいろんな方法や観点があるからです。評価方法や指標について多くの論点が、LLMアプリケーションに限らず、機械学習アプリケーション全般に共通しています。この10年ぐらいで、機械学習アプリケーションの評価についてはかなりの議論がなされてきており、ある程度成熟してきました。一方、LLMでLLMの出力を評価するLLM-as-a-Judgeについては、GPT-3.5や

developmaso 2024/08/07

LLM
運用

リンク

LangGraphの基本的な使い方

この記事の概要こんにちは。PharmaX でエンジニアをしている諸岡（@hakoten）です。この記事では、大規模言語モデル（LLM）を活用したアプリケーションの開発を支援するフレームワークであるLangChain内にあるツールチェインの一つ、LangGraphについてご紹介します。 LangChainがどのようなものかについて知りたい方は、ぜひ一読していただけると幸いです。 ※ LangGraphは、LangChainとシームレスに連携できるライブラリですが、この記事ではLangGraph自体の入門内容に焦点を当てており、LangChainについては詳しく触れませんので、ご了承ください。 LangGraphとは LangGraphは、LangChainのツール群に含まれる一つで、各LLMエージェントのステップなどをグラフ化して状態管理を行うためのツールです。 LangGraphは、ス

developmaso 2024/07/04

あとで読む

リンク

LLMによるLLMの評価（LLM as a judge）の精度改善のための試行錯誤〜評価分割・モデル間比較

LLM-as-a-Judgeとは LLMをアプリケーションに組み込んでいると、LLMの出力を評価する必要が出てきます。 LLMの「出力は確率的である（毎回異なる）」ためです。また、LLMの出力はハルシネーションを含む可能性がありますし、間違いではないにしてもサービス提供者の意図とは違った出力をエンドユーザーに提示してしまうかもしれません。 LLMの出力を評価して、出力が適切でないことを判定できれば、ユーザーには表示しない、出力を再度行わせる（出力をLLMに修正させるのもよいでしょう）というようなことができるようになります。ただし、LLMのすべての出力を人が評価していたのでは、手が回りません。そこで、注目されているのが、LLM-as-a-Judgeと呼ばれるLLMにLLMの出力を評価させる手法（以後、単に評価と呼ぶ）です。評価にLLMを使えば、出力をすぐに評価し、評価結果をアプリケー

developmaso 2024/06/07

あとで読む

リンク

負荷テストツール「k6」入門

こんにちは。 PharmaX でエンジニアをしている諸岡（@hakoten）です。この記事の概要 APIの負荷テストツールにGrafana Labs社が開発している「k6」というツールがあります。 k6はオープンソースのCLIツールですが、「Grafana Cloud k6」というクラウドベースSaaSツールも提供されている便利なツールです。ローカルのk6は、負荷テストの時に使ったことはあったのですが、真面目に負荷テストの設計をするにあたり、ちゃんと理解したかったため、改めて基本から調べてみました。k6の入門記事としてお役に立てれば嬉しいです。インストール Macでは、k6を「Homebrew」でインストールすることができます。