導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 この記事では、長文から分割されたチャンクを精度高く検索するための手法、Late Chunkingについて紹介します。 サマリー Late Chunkingは、従来のRAGと比較して長文を分割したチャンクでの検索精度を向上させます。 Late Chunkingの特徴として、長文対応のEmbeddingを用いてトークンごとのベクトルデータを取得します。その後、チャンクの単位に合わせてベクトルデータの平均を取り、そのベクトルのデータを利用してベクトル検索をかける手法となっています。 問題意識 チャンク化はコンテキストを失う可能性がある RAGのシステムでは、関連のある情報を取得するために大量の文章情報をある程度