何か僕がシンガポールに出張している間に妙なニュースが流れていたようで。 京大ビッグデータ副作用論文。機械学習知らない私でも疑問なのは、@sz_drさんも指摘してるが y'=a1*SCORE+a2*ACT+a3*GeneID+b (1) という式で、GeneIDという定量的に性質を示す値でないものを線形結合に加えているところだと思う。詳しい人教えて— torusengoku (@torusengoku) 2016年1月25日 (※記事そのものへのリンクは控えました) 見る人が見れば「ああこれはleakageだな」と一瞥して終わるところなんですが、そもそもleakageってどういうことなのかピンと来ない人もいるかと思いますので、以前取り上げたデータ分析題材を例にとって実演してみようと思います。お題はこちら。 何故これを選んだかというと、このテニス四大大会データには上記で話題になっていた"Gen
![「正答率100%」になってしまう機械学習モデルの例を挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ](https://cdn-ak-scissors.b.st-hatena.com/image/square/addd77ffe3a38ad3e372f60e6913e88ea16b6cbe/height=288;version=1;width=512/http%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2FT%2FTJO%2F20160127%2F20160127232147.png)