タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

評価とRAGに関するarrowKatoのブックマーク (3)

  • RAG評価ツール ragas を試す|npaka

    RAG評価ツール「ragas」を試したので、まとめました。 1. ragas「ragas」は、「RAG」 (Retrieval Augmented Generation) パイプラインを評価するためのフレームワークです。「RAG」は外部データを使用してLLMのコンテキストを拡張するLLMアプリケーションです。「ragas」はこのパイプラインを評価して、パフォーマンスを定量化します。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) RAGパイプラインの準備。 今回は、以下の記事で作成した、ELYZAのRAGパイプラインを使います。 (2) パッケージのインストール。 # パッケージのインストール !pip install ragas datasets(3) 環境変数の準備。 「ragas」は「OpenAI API」で評価します。 import os import

    RAG評価ツール ragas を試す|npaka
  • RAG評価フレームワークのragasを使ってみた - サーバーワークスエンジニアブログ

    サーバーワークスの村上です。 このブログではRAGの評価フレームワークであるragasについて紹介します。 ragasとは RAGの評価イメージ ragasでできること概要(忙しい方向けのまとめ) このブログで検証したこと ragasの利用の流れ テストデータの作成 RAGアプリケーションの回答を取得 評価 具体的な実装 テストデータの作成 htmlのロード LLMの定義 プロンプトのカスタマイズ テストデータの作成 生成できる質問の数 生成したテストデータをCSVに保存 RAGアプリケーションの回答を取得 評価 データセットを作成 メトリクスを定義 メトリクスの算出 まとめ ragasとは ragasはRAG(検索拡張生成)を評価するためのフレームワークです(RAG Assessmentが由来)。 github.com RAGとは大規模言語モデル(LLM)の外部に情報の保管場所を作ってお

    RAG評価フレームワークのragasを使ってみた - サーバーワークスエンジニアブログ
    arrowKato
    arrowKato 2024/05/13
    タイトル通り
  • Building and Evaluating Advanced RAG Applications

    Learn methods like sentence-window retrieval and auto-merging retrieval, improving your RAG pipeline's performance beyond the baseline.Learn evaluation best practices to streamline your process, and iteratively build a robust system.Dive into the RAG triad for evaluating the relevance and truthfulness of an LLM's response:Context Relevance, Groundedness, and Answer Relevance. Retrieval Augmented G

    Building and Evaluating Advanced RAG Applications
  • 1