タグ

ブックマーク / marugari2.hatenablog.jp (2)

  • 評点の分布が滑らかでないのは不自然なのか - お勉強メモ

    話題の評点分布についての自分用まとめです。 特に統計的な議論においては各々想定している状況が違っているようなので整理してみました。 筆者は統計というよりは確率の人間なので、ベイズだとかには触らずに確率変数の演算ばかり使います。 大数の法則が使えるような状況 店 の真の評点 が宇宙のどこかに存在していて、レビュワー の 店 に対する評点 は平均 を持つ独立同分布な確率変数と考えます。 店 の評点 は 件のレビューが付いていたときに と書けます*1が、これはレビュワーが増えていくと に収束することが知られています。 確率変数である を仮に に置き換えて考えれば、もはや評点分布は何ら確率的な性質を持ちません。 宇宙のどこかに存在している の値は3.6が多いかもしれませんし3.8が多いかもしれませんし、そうでないかもしれません。 レビュワー数は実際には有限なので収束せず幾らかは確率的なところがある

    評点の分布が滑らかでないのは不自然なのか - お勉強メモ
    odan3240
    odan3240 2019/10/12
  • XGBoostにDart boosterを追加しました - お勉強メモ

    はじめに XGBoostにBoosterを追加しました。 以下のようなIssueを見つけ、興味があったので実装してみたものです。 github.com 今のところ、Dart boosterの仕様について私以外の誰も把握していないはずなので、皆さんに使って頂きたく解説記事を書きます。*1 モチベーション 論文の Boosted Treesでは誤差を潰すために回帰木を大量に作ります。 木の数が多くなったときに残っている誤差は小さいですが、以降に構築される回帰木はその些末な誤差にフィッティングされることになります。 これは効率悪いように思われ、イテレーションの終盤においても一定の影響力を持った回帰木を作りたいということで、NN系でよく用いられる(ものとは趣きが異なるように私には思える)DropoutをBoosted Treesに転用しています。 自分の XGBoostにはいつもお世話になっている

  • 1