〒101-8335 東京都千代田区神田淡路町2-9 一般社団法人 日本損害保険協会 業務企画部 啓発・教育・防災グループ TEL:03-3255-1294 FAX:03-3255-1236 E-mail:ansui@sonpo.or.jp
なぜこの記事を書いたのか? 決定木をベースにしたアルゴリズムのほとんどに特徴量重要度という指標が存在する。データに対する知識が少ない場合はこの指標を見て特徴量に対する洞察深めることができる。KaggleではEDAのときにとりあえず重要度を見てみるなんてこともするようだ。 しかし、この特徴量重要度にはバイアスが存在していて、特定の条件下では信用出来ないことがある。そういった条件を広く知ってほしいということでこの記事を書いた。 この記事では人工データを生成しバイアスを再現してみた。また、こういったバイアスに対処したという論文を見つけたので軽く紹介する。おまけとしてgainベース以外の特徴量重要度についても紹介する。 目次 なぜこの記事を書いたのか? 想定読者と実験の枠組み 想定読者 限定する枠組み 特徴量重要度とは? 特徴量重要度にバイアスが生じる条件 1. 解像度が低い場合 2. 特徴量同士
2019年1月4日 9:30頃 追記 同ブログ記事に対して黒木さんからTwitterにて以下のようなご指摘をいただきました(ごく一部のツイートだけを抜粋). #統計 もう一度書くと、 * 予測分布の予測性能の比較→AIC, WAIC, LOOCVなど * モデルによるサンプル生成の確率分布がサンプルの真の分布にどれだけ近いかを比較→自由エネルギー, BIC, WBICなど — 黒木玄 Gen Kuroki (@genkuroki) January 3, 2019 ありがとうございます. ご指摘通り,このブログ記事では(最近の統計モデリングにおける特徴のひとつとして)予測性能の評価のほうしか取り上げておらず,特にAICしか触れていません. 特異モデルでも妥当であると言われているWAICへの言及ができなかったのは,私がまったく理解していないだけからです.ニューラルネットワークやベイズモデルなど
フルマラソンは 30 キロからが難しい 解析結果 5KM ラップタイムの遷移で見る 3 時間を切る人と切れない人 平均 上位 10 人 ギリギリサブスリーの 10 人 サブスリーまでもうひと頑張りの 10 人 見解 フルマラソンは 30 キロからが難しい 最初の 5 キロ 10 キロ 15 キロ 20 キロ 25 キロ 30 キロ 35 キロ 40 キロ 後半 15 キロのラップタイムの落ち込み 見解 5000 人分の結果を csv ファイルに 結果の取得 Pandas ライブラリ 5000 人分の結果を csv ファイルに ということで サブスリーに向けて Python + Pandas フルマラソンは 30 キロからが難しい と言われていますが、本当なのか、そして、俺は何がダメで 3 時間を切れなかったかをランナーズアップデートで公開されている選手 5000 人の結果を利用して分析して
子どもの夏休み中の勉強についての方針を考えている時に、よく見ているブログで、こんな分析がたまたま紹介されているのを見かけました。 タイラー・コーエン 「宿題の量と学力との間にはどんな関係がある?」(2005年6月21日)/ マーク・ソーマ 「宿題なんてまっぴら御免だ」 — 経済学101 その分析結果はというと、(学校から出される)宿題の平均的な量と学業成績との間には何の相関も見出されなかったのであった。例えば、ベーカー教授が指摘しているところによると、日本やチェコ、デンマークといった生徒の成績が高い国(TIMSSの成績上位国)の多くでは宿題はそれほど出されていない一方で、タイやギリシャ、イランといった生徒の平均的な成績が極めて低い国(TIMSSの成績下位国)では宿題の量はかなり多いということだ。 引用箇所は、1994年と1999年の世界のデータを使った2005年の研究に関するものですから、
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く