[B! LLM] chidakiyoのブックマーク

LLMによるLLMの評価とその評価の評価について

LLMをプロダクトに活用していく上でプロンプトの出力結果を評価していかなければいけない訳ですが、可能な限り自動で定量評価できると改善もしていきやすくなり大変助かります。そこで所謂LLM-as-a-Judgeと呼ばれるLLMに評価してもらう手法を取るわけですが、やはり「このスコアはどれくらい信じられるのか...?」という疑問が湧いてきて"評価の評価"がしたくなってきます。というところで、本記事では使いそうなLLM-as-a-Judgeの手法について調べた後、"評価の評価"の仕方を調べてみた結果をまとめていきます。 LLM-as-a-Judgeの手法まず初めに、LLM-as-a-Judgeにも様々な手法が存在するので、それらを確認していきます。スコアベース一番ベーシックなものはスコアをつけてもらうやり方です。次のように実際のインプット、それに対するLLMの回答をプロンプトに加えて、

chidakiyo 2024/10/31

LLM

リンク

LLMの効率化を支えるアルゴリズム

2024.09.04

chidakiyo 2024/10/31

LLM

リンク

自社開発した大規模言語モデルをどうプロダクションに乗せて運用していくか〜インフラ編〜

Cloud Operator Days 2024 クロージングイベントでの発表資料です。 PFN では PLaMo という生成AI基盤モデルを開発しており、100B規模のモデルを運用する際の課題について話しました。

chidakiyo 2024/09/12

LLM
生成ai

リンク

社内AIチャット「TIS AIChatLab」：RAG応答評価の仕組みとプロセス | Fintan

はじめに TISは、生成AIを活用した自社データと連携する社内専用のChatGPT環境である「TIS AIChatLab」の開発・利用を進めています。これは、大規模言語モデル（LLM）を基盤とし、企業固有の情報を活用できるよう拡張したシステムです。本記事は「TIS AIChatLab」のプロジェクトメンバーへのインタビューを通して、TISにおけるLLMやRAGに関する取り組みを紐解くシリーズの第2回です。今回は評価の仕組み、作業プロセス、指標などの評価部分にフォーカスしてお届けします。インタビュアー水谷：会員制メディアAI DBの運営者。LLMなど機械学習の知見を論文ベースで紹介している。サマリ社内専用のAIチャット「TIS AIChatLab」の開発では、RAGASを活用したAIの応答を定量的に評価している。これにより、パフォーマンスを客観的に測定し、継続的な改善を可能にしている

chidakiyo 2024/08/09

LLM
rag

リンク

プロンプト設計戦略 | Google AI for Developers

フィードバックを送信プロンプト設計戦略コレクションでコンテンツを整理必要に応じて、コンテンツの保存と分類を行います。プロンプト設計により、機械学習（ML）制御モデルの出力を初めて利用するユーザーでも、オーバーヘッドを最小限に抑えられます。プロンプトを慎重に作成することで、目的の結果を生成するようにモデルを調整できます。プロンプト設計は、特定のユースケースに合わせて言語モデルを適応させることをテストする効率的な方法です。言語モデル、特に大規模言語モデル（LLM）は、単語間のパターンと関係を学習するために、膨大なテキストデータでトレーニングされています。テキスト（プロンプト）を受け取った言語モデルは、高度なオートコンプリートツールのように、次に来ると思われるものを予測できます。したがって、プロンプトを設計する際は、モデルによる次の予測に影響を与える可能性のあるさまざまな要因を考慮し