データセットの問題 Kaggle Porto Seguroでは問題となっている点があって、テストデータとトレインデータのサイズの方が大きく、トレインだけに着目してしまうと、LeaderBoardにoverfitしてしまう問題があります。 これはトレインだけで学習するために起こる問題で、テストデータ・セットを有意義に使う方法として、教師なし学習でまずは次元変換やなんやらを行うという方法が有効なようです。 ディープを用いることでいくつか有益な変換操作を行うことができて、「すべての情報は何らかのノイズを受けている」という視点に立ったときに、恣意的にAutoEncoderの入力にノイズを乗せ、それを除去するように学習するとはっきりと、物事が観測できるようになったりするという特徴を利用しています。 図1. よくある画像の例 画像の利用からテーブルデータの利用に変換する操作を行います。 このテーブルデ
![テーブルデータに対して、DenosingAutoEncoderで精度向上 - にほんごのれんしゅう](https://cdn-ak-scissors.b.st-hatena.com/image/square/a9af7e2184628ed9cf25f41353d29a4fe4b48741/height=288;version=1;width=512/https%3A%2F%2Fd2mxuefqeaa7sj.cloudfront.net%2Fs_395C846F6BB54334ACB188FAC2F01C0FF7D15E56852EC0E8EFD1BA2A22439502_1532149832729_image.png)