機械学習コンペと言えばKaggleというのはもはや世の中の常識(一部誇張表現あり)になりつつありますが、「データ分析プロジェクトの8割が前処理」という現実を目の当たりにし続けている身としては「そんなRDBSにデータが入った先の綺麗なところで戦うのもあまり実践的ではないような」と思っているのも事実だったりします。 そこで、まずはお試しですがこんなものを始めてみました。その名もずばり"Struggle"。 もう見たまんまで、現実にありがちな(もしくは各協賛企業から提供された本物の)「汚い」データセットをひたすら前処理して学習ラベル+特徴量のテーブルに直し、予め用意されたブラックボックスのモデル(中身はコンペ終了後に公開される)に入力して得られたパフォーマンスの高さで、前処理の腕の良し悪しを競うというコンペを各種集めたポータルです。 まだβ版なので今のところは僕が自宅のIoTセンサで集めた我が家