最近、セイバーメトリクスという言葉を耳にする機会が増えたと思います。スポーツ番組や雑誌等で見かけることも増えました。その流れはプロ野球界にも来ており、データ分析専門のスタッフがいるチームもあります。そこで今回は野球データを統計学的に分析してみたいと思います。犠牲フライ時の3塁走者の生還・非生還に着目して、犠牲フライを統計学的に分析していきます。
最近、セイバーメトリクスという言葉を耳にする機会が増えたと思います。スポーツ番組や雑誌等で見かけることも増えました。その流れはプロ野球界にも来ており、データ分析専門のスタッフがいるチームもあります。そこで今回は野球データを統計学的に分析してみたいと思います。犠牲フライ時の3塁走者の生還・非生還に着目して、犠牲フライを統計学的に分析していきます。
追記(2017年8月) こちらの記事へのアクセスが未だに多いようですが、書かれてから既に4年が経過しており業界事情もだいぶ様変わりしております。このブログの「データサイエンティスト」カテゴリの他の新しい記事も是非ご覧ください。 以前の記事の続き再び。前回に引き続きまさにお題の通りで「未経験者はどうすればデータサイエンティストになれるか」ということなんですが、 そんな方法論あったら誰も苦労しねーよ。 ってのはウソ。笑 とは言え、僕自身「自分はデータサイエンティスト」と嘯くぐらいのことはできますが*1、かと言って本当にデータサイエンティストって言えるの?と真顔で迫られたら色々もにょることもあるわけで*2。ある意味僕も未経験者からデータサイエンティストと称される職種に転じた人間なので。 もっとも、僕は一方でアカデミック業界にいた頃はデータマイニングを駆使するquantitative resear
追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く