タグ

ブックマーク / hoxo-m.hatenablog.com (4)

  • 統計解析でよく使われる言葉「Qモード」「Rモード」とは何を指すのか - ほくそ笑む

    主成分分析のQモードとRモードの違いについて調べていたんですが、ネット上にほとんど情報を見つけられませんでした。 クラスター分析とか相関係数にもQモードとRモードがあるみたいで、統計では結構一般的に使われている言葉みたいなのですが、これだけ日語情報が少ないとなるとちょっと困りますね。 統計言語Rのメーリングリストにちょうど次のような質問が寄せられていたので、一部翻訳してみました。 こんにちは。 どなたか主成分分析のQモードとRモードの違いについて教えていただけないでしょうか。 それぞれ prcomp() と princomp() 関数に対応しているようなのですが。 by Lívio Cipriano こんにちは Livio、 prcomp のヘルプファイルにはこんなことが載ってるよ: この計算はデータ行列の特異値分解によって行われます。共分散行列の固有値は使用されません。これは一般的に、

    統計解析でよく使われる言葉「Qモード」「Rモード」とは何を指すのか - ほくそ笑む
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • 交差検証の k の値はどれくらいにすればいいのか - ほくそ笑む

    分類器(識別器)のモデルを評価する手法に交差検証(クロスバリデーション)があります。 交差検証を行うには、データをいくつに分割するかを表す k の値を決めてあげなければなりません。 SVM のチューニングのしかた(1) において、交差検証の k の値を決めるとき、僕は個人的に k = 1 + log(n)/log(2) という式を用いていると書きました。 この式は、知っている人ならわかると思いますが、スタージェスの公式です。 スタージェスの公式は、ヒストグラムを描く際にサンプル数から階級数を決めるのに便利な公式です。 しかし、この公式を交差検証の k を決める際に使用するのは、はっきりいって根拠がありません。 そこで、今日は交差検証の k の値をどのくらいにすれば良いのかについて考えてみたいと思います。 準備(予備知識) k の値は大きければ大きいほど、正確にモデルを評価できます。 k の

    交差検証の k の値はどれくらいにすればいいのか - ほくそ笑む
  • SVM のチューニングのしかた(2) - ほくそ笑む

    さて、前回は交差検証の説明で終わってしまいましたが、今回はちゃんと SVM のチューニングの話をします。 チューニングの手順としては、 グリッドサーチで大雑把に検索する。 最適なパラメータがありそうなところを絞って再びグリッドサーチを行う。 という2段階のグリッドサーチを行います。 1段階目:グリッドサーチで大雑把に検索する SVM のチューニングは tune.svm() という関数を用いて行います。 チューニングのやり方は、単純にグリッドサーチを行っているだけです。 パラメータの値をいろいろ変えてみて、正答率の一番いい値をベストパラメータとして出力します。 プログラムは下記のようになります。 gammaRange = 10^(-5:5) costRange = 10^(-2:2) t <- tune.svm(Species ~ ., data = iris, gamma=gammaRan

    SVM のチューニングのしかた(2) - ほくそ笑む
  • 1