タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

tree*と*algorithmとsearchに関するsh19910711のブックマーク (2)

  • XGBoost と LightGBM に実装されているポジションバイアス除去を試してみた

    はじめに 以前も記事にしたが、ウェブ上のユーザーの行動ログを使って推薦システムを開発している自分のようなMLエンジニアにとって、ランキング学習におけるポジションバイアスの除去は重要なテーマである。サービスのログは通常様々なバイアスに塗れており、特にリストの上位に表示されたアイテムほどクリックが集まりやすくなってしまうポジションバイアスは非常に厄介だ。アカデミアではこの手のテーマはだいぶ研究が進んでいるものの、これまでは論文や書籍で手法が紹介されるだけで、手軽にパッと使えるライブラリは存在しなかった。 しかしどうやら最近になって XGBoost や LightGBM という多くの人が使う強力なGBDTライブラリにポジションバイアスを除去する機能が実装されたらしく、これが使い物になるのであれば実務で利用するハードルがグッと下がると思い、実験して性能を検証してみた。 検証に使うデータセット ここ

    sh19910711
    sh19910711 2024/09/15
    "ポジションバイアス: リストの上位に表示されたアイテムほどクリックが集まりやすくなってしまう / 最近になって XGBoost や LightGBM という多くの人が使う強力なGBDTライブラリにポジションバイアスを除去する機能が実装"
  • [python] kd木を使った最近傍探索 - Qiita

    おそらくちゃんと機能している kd木 仕組み とても説明しづらいがざっくりと説明したい 自分の説明はわかりづらいので以下のpdfを見ることをお勧めする。 Kd-treeと最近傍探索 https://hope.c.fun.ac.jp/mod/resource/view.php?id=15284 今回説明するkd木はあくまで自分が採用した方法であり、他にも微妙に違ったkd木の作り方とかあるらしい。 二次元データを例として使う [出典] https://medium.com/@schmidt.jerome/k-d-trees-and-nearest-neighbors-81b583860144 kd木のデータ構造は、データの軸をずらしながら、それぞれの軸の中央値を取ることで作ることができる 中央値といっても厳密な意味ではなくデータ数が偶数の時は中央らしき二つの点のうち大きい方になる 具体的には上

    [python] kd木を使った最近傍探索 - Qiita
    sh19910711
    sh19910711 2024/05/23
    "kd木: データの軸をずらしながら、それぞれの軸の中央値を取る / どれかの軸についての絶対値を比較 + 絶対に最近傍点の存在しない領域を排除する / 次元数を増やすと計算量があまり削減できなくなる" 2022
  • 1