本当はリンク予測の話として書きたかったが,優勝チームの手法及びそれに対する反応が面白かったのでメモ. 三行まとめ リンク予測のコンペティションが行われた 優勝チームは(データの出処となっていた)Flickrをクロールし,匿名化(anonymize)されていたテストデータを実データと結びつける(deanonymize)事により予測精度を向上させた 優勝チームの手法が公開され,公式フォーラムで「これは問題ではないか?」と言われる 背景 最近見つけたのだが,Kaggle: Your Home for Data Scienceというサイトでは常時賞金が出るデータコンペティションが行われている. 企業や研究者がデータを提供し,分析者がそれを分析する.企業は最終的には賞金を出し,データに対する知見を得る,みたいなアウトソーシングであると公式サイトでは説明がされている. Companies, gover