カエルなので分かりません、誰か教えてください。 レコメンデーションシステムのオフライン評価について調べてました。 そのメモ的なエントリです。 ここでいうレコメンデーションシステムについてはよくある EC サイトの商品推薦のようなものをイメージしていただければと。 また、オフライン評価とは "一般的な A/B テストのように実運用に影響のある方法" ではなく、過去ログ等を用いてローカル環境でバッチ的に行える評価のことです。 尺度 尺度については以下によくまとまってます。 Evaluation Metrics – Part 1 | A Practical Guide to Building Recommender Systems ここに挙げられている中で個人的に有用そうだと思ったものを列挙。 順序を考慮した精度的な尺度 MAP (mean average precision) nDCG (no