タグ

2023年12月5日のブックマーク (3件)

  • Microsoft が Azure Cognitive Search による RAG システムの定量評価結果を公表 - Qiita

    Microsoft は 18 日、Azure Cognitive Search を用いた RAG システムの定量的評価結果を公表し、Azure Cognitive Search 独自の検索機能である、セマンティックハイブリッド検索(ハイブリッド+セマンティックランカー)が最も高い品質を示すことが分かりました。また、チャンク分割戦略についての参考になるインサイトも提供しています。 Azure Cognitive Search のセマンティックハイブリッド検索の解説はこちらを参照ください。今回用いる用語の簡単な解説は以下です。 ハイブリッド検索:BM25 ベースのキーワード検索とベクトル類似度検索結果のそれぞれ上位 50 件を、RRF を使用して結果を統合します。 ハイブリッド+セマンティックランカー:ハイブリッド検索の結果上位 50 件を、リランク(並び替え)て新たにスコアを生成しています。

    Microsoft が Azure Cognitive Search による RAG システムの定量評価結果を公表 - Qiita
    kabisuke
    kabisuke 2023/12/05
  • RAG周りの情報で気になったことメモ - Qiita

    まえおき RAG周りの情報を調べていて、気になったものをまとめます。追加予定です。 気になることがあった記事・論文・動画・書籍の単位で、メモを取ります。 時間があれば整理していきたい。。。 2023/11/11追加分: ・1. Retrieve & Re-Rank(SentenceTransformersライブラリのWebページ) ・2. Cross-Encoders(SentenceTransformersライブラリのWebページ) ・3. How to Chunk Text Data — A Comparative Analysis(Mediumの記事 Solano Todeschiniさん) ・4. 論文翻訳: The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summar

    RAG周りの情報で気になったことメモ - Qiita
    kabisuke
    kabisuke 2023/12/05
  • GPT-4 Turboにドキュメントのチャンク分けを任せてみる - EXPLAZA Tech Blog

    はじめに こんにちは、LLM Advent Calendar 2023 4日目の記事を担当する_mkazutakaです。よろしくお願いします。 LLM Advent CalendarといってもRAGの話になりますが、ご容赦ください。 企業独自のデータを使ってLLMからの出力を制御する際には、検索拡張生成(いわゆるRAG)が使われます。 RAGの実装方法としては、「PDFからドキュメント情報を読み取り検索エンジンに保存」「ユーザの入力する質問文から関連するドキュメントを検索エンジンから取得」「取得したものをコンテキストとしてプロンプトに含める」という流れが一般的だと思います。 この際、RAGの課題の一つでもあるのですが、検索結果から取得するドキュメントのサイズ(いわゆるチャンクサイズ)をどれぐらいのものにするかというものがあります。チャンクサイズが小さすぎるとLLMは関連するコンテキストから

    GPT-4 Turboにドキュメントのチャンク分けを任せてみる - EXPLAZA Tech Blog
    kabisuke
    kabisuke 2023/12/05