追記 (2015/02/21) いくつか抜けてるところがあったなぁと思ったので、後から追記や加筆修正してみました。最初のオリジナル版から少し内容が変わっているところがありますがご了承ください。 ちょっと前の記事でこんなネタをやってみたわけですが。 世の中には色々な「データ分析」のやり方があるなぁと思った時に、この同じ2013年のテニス四大大会のデータからそれぞれのやり方をしている人たちがどんな異なるアプローチを取るのかなぁとふと想像したもので、半分ネタ的に書いてみました。便宜的に以下のようにステージを分けてあります。 集計ステージ 検定ステージ 相関ステージ 重回帰分析ステージ 機械学習を含めたモデリングステージ 厳密性に拘るステージ なお、データは以前の記事と同じこちらのものをお使い下さい。 その上で、Rで分析する際は以下のように前処理しておきます。単にプレイヤー名・獲得ゲーム数・総獲得
![同じデータセットに対するアプローチの違いから見る「データ分析のステージ」 - 渋谷駅前で働くデータサイエンティストのブログ](https://cdn-ak-scissors.b.st-hatena.com/image/square/0e753359ecf387ad03ec5d3af7d7520fff83bfac/height=288;version=1;width=512/http%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2FT%2FTJO%2F20150220%2F20150220125123.png)