分類器(識別器)のモデルを評価する手法に交差検証(クロスバリデーション)があります。 交差検証を行うには、データをいくつに分割するかを表す k の値を決めてあげなければなりません。 SVM のチューニングのしかた(1) において、交差検証の k の値を決めるとき、僕は個人的に k = 1 + log(n)/log(2) という式を用いていると書きました。 この式は、知っている人ならわかると思いますが、スタージェスの公式です。 スタージェスの公式は、ヒストグラムを描く際にサンプル数から階級数を決めるのに便利な公式です。 しかし、この公式を交差検証の k を決める際に使用するのは、はっきりいって根拠がありません。 そこで、今日は交差検証の k の値をどのくらいにすれば良いのかについて考えてみたいと思います。 準備(予備知識) k の値は大きければ大きいほど、正確にモデルを評価できます。 k の
![交差検証の k の値はどれくらいにすればいいのか - ほくそ笑む](https://cdn-ak-scissors.b.st-hatena.com/image/square/87d02cdddbf4092c96469da6f4d0fe7afb178997/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fh%2Fhoxo_m%2F20110617%2F20110617192240.png)