本記事は情報検索・検索技術 Advent Calendar 2025の1日目の記事です。 LLM向けの検索について LLMと人間で検索結果を違って評価するか ポジショナルバイアスの違い ノイズとなる検索結果への耐性 LLM向けの検索評価指標 おわりに LLM向けの検索について 昨年に引き続き今年もLLM文脈で検索技術を活用するかについて非常に活発に議論が行なわれた年でした。特に、昨年10月に出たChatGPT Web Search機能以降では、学習データ機関に関わらず、常に最新のデータを元に推論・思考することが当たり前に求められるような世界線となっているように思われます。 RAGシステムを開発されているエンジニアの方も多いかと思われますが、そのようなシーンでの検索結果(≠LLMのアウトプット)の評価はどうされているでしょうか? 従来通りMAP/MMR/nDCGなどの指標を用いているでしょう

