MSCIコンペについて既に振り返りはしたが、今回のコンペでは「どのようにして最終サブミットのためのモデルを作成するか」が非常に重要な要素でずっと頭を悩ませていたので、これについて考えていこうと思う。加えて自分の特徴量エンジニアリングの手法についても備忘として残しておく。 CV と Public LB と Private LB 今回のコンペでは、CVでのデータの分布とLBでのデータの分布が異なっていた。CITE に限定して考えていく。 TrainデータはDay2,3,4 (Donor1-3)の細胞群 (図では赤色) Public LBデータはDay2,3,4 (Donor4)の細胞群 (図では水色) Private LBデータはDay7 (Donor1-4)の細胞群 (図では緑色) このように、Public LBにはTrainにはない未知のDonorの情報が、Private LBには未知のD