タグ

ブックマーク / zenn.dev/pharmax (3)

  • 「完全自律型」AIエージェント至高論への違和感〜ワークフロー構築という現実解

    2024年末と2025年の最初からAIエージェントについての議論が盛り上がっていますね。 これまでPharmaXでもYOJOというプロダクトで実現してきたAigentic Workflow(記事執筆当時はフローエンジニアリングと読んでましたが、エージェントがバズワード化したとことで、Aigentic Workflowの方がしっくりきそうだと感じてます)について、いくつかノウハウをシェアして来ました。 PharmaXではいち早くAigentic Workflowに取り組み、実際のビジネス成果を出しており、色々な所でも発表もさせていただいております。 今巻き起こっているAIエージェントについての議論には多少違和感があるので、今時点での自分の意見をまとめてみたいと思います。 今回の記事は、下記のみやっちさん(@miyatti)の記事にかなり触発されて、自分自身の考えを自分の言葉で書くことにしまし

    「完全自律型」AIエージェント至高論への違和感〜ワークフロー構築という現実解
  • LLMアプリケーションの評価入門〜基礎から運用まで徹底解説〜

    こんにちは。PharmaXの上野です。 今回はLLMアプリケーションを評価する上で知っておくべき評価の基をきちんと整理したいと思います。 これまで何度かLLMアプリケーションの評価について語ってきました。 運用についても記事や発表の形でシェアを行ってきました。 ですが、まだまだ「評価とはなにか?」という基的なところで躓いてしまっている方も多い印象なので、今回は前提から丁寧に評価の全体像をまとめていきたいと思います。 LLMアプリケーションを運用している方の参考になれば嬉しいです! なぜLLMアプリケーションを評価する必要があるのか LLMをアプリケーションに組み込んでいると、LLMの出力を評価する必要が出てきます。 LLMの「出力は確率的である(毎回異なる)」ためです。 また、LLMの出力はハルシネーションを含む可能性がありますし、間違いではないにしてもサービス提供者の意図とは違った出

    LLMアプリケーションの評価入門〜基礎から運用まで徹底解説〜
  • GPT-4o-miniのファインチューニングのすゝめ

    突然ですが、みなさんLLMのファインチューニングしていますか? 個人的な感想かもしれませんが、ファインチューニングは、幻滅期に入っているように感じています。 GPT-3.5 Turboのファインチューニングが発表されて以降、ファインチューニングしても思ったような出力をしてくれないので、ファインチューニングに期待しないという意見がちらほら聞こえてきました。 ファインチューニングするぐらいなら、Few-shotなどのプロンプトエンジニアリング技法を駆使した方が、結果的には求めている出力をしてくれると考えている方も多かったのではないでしょうか。 正直、私自身もそうでした。 ファインチューニングは、データセットを準備するのも大変ですし、正直コスパがよくないなと感じていました。 実際、プロンプトのチューニングは高速でPDCAを回せるので、ファインチューニングを反復するよりも遥かに高速なフェードバック

    GPT-4o-miniのファインチューニングのすゝめ
    flatbird
    flatbird 2024/12/17
  • 1