タグ

評価に関するdevelopmasoのブックマーク (2)

  • RAGの回答を自動評価する手法(LINEヤフーのSeekAIでの事例)

    こんにちは。生成AI関連の開発をしている図左です。社内でRAGを使った生成AIサービスを開発していますが、ロジック変更のたびに毎回人手でテストするのは現実的ではありません。今回は、この品質評価を自動化したフローや手法を紹介します。 SeekAIとは LINEヤフー株式会社では、社内の情報を効率的に検索するために、生成AIを活用したサービス SeekAI を内製展開しています。SeekAIではRAGという技術を使って一般的な知識だけでなく、社内規程・ルール・問い合わせ先、コーディング時の技術スタック、顧客や取引先とのコミュニケーション履歴などを効率的に把握できるため、社内の情報検索ツールとして活用されています。 SeekAIのプレスリリース RAGとは 生成AIに『学習済みではない知識』に関する回答を出力させるために、別途構築したデータベースから取得した情報と組み合わせて回答させる手法です。

    RAGの回答を自動評価する手法(LINEヤフーのSeekAIでの事例)
  • あらゆる分野のRAGの性能を評価する手法RAGEval

    導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 記事では、ドメインに特化したRAGの性能を検証するためのフレームワーク、RAGEvalについて解説します。 サマリー RAGの手法は日夜研究され、新しい手法は次々に提案されています。RAGに限った話ではないですが、システムの性能を計測するには評価するための方法が重要です。そしてRAGの性能を計測するにはドキュメントと質問、そして正解ドキュメントと正答のセットが必要になります。 RAGEvalは、これらの計測に必要なデータをLLMとそのドメインに使用するサンプルのドキュメントを用いて自動的に生成する事が可能となっています。 問題意識 RAGのテストデータを用意するのは大変 RAGの評価には必ず評価するため

    あらゆる分野のRAGの性能を評価する手法RAGEval
  • 1