巨大地震が日本を襲い、皆不安を感じながら生活していると思います。 そんな中せめて自分に出来ることをしようと思い、研究してきた内容をブログに記します。 サンプル数が大規模なデータでニューラルネットワークとかサポートベクターマシンとかをしたくても、 時間がかかってしょうがない!ってときに参考にしてみて下さい。 近年、特にweb関係の業界ではデータデータをいくらでも記録できるようになったため、データの規模が非常に大きくなっています。 大規模データに機械学習、マシーンラーニングを適用したいという要望は高まっています。 そういうときはデータからサンプリングして性能を確かめることが多いと思います。 ですがそんな時は、 「サンプル数はどれくらいがいいの?」 「一回やっただけじゃ真の性能は分からないよね?」 「しかもクロスバリデーションしなきゃいけないし。。」 などのような事を疑問に思うでしょう。 今回紹