タグ

ブックマーク / hoxo-m.hatenablog.com (6)

  • ブートストラップ法で信頼区間を求めるときの注意点 - ほくそ笑む

    1. はじめに ブートストラップ信頼区間について調べていたんですが、理論的な求め方は教科書などに載っているのですが、実践的な情報が少ないように思います。 今回、少し調査してみて、実際に適用する際に注意が必要だなと感じたことについて書いておきます。 2. ブートストラップ信頼区間 ブートストラップ法は、理論的に求めるのが難しい統計量を、経験分布からのシンプルなリサンプリングによって推定できるという手法です。 ブートストラップ法では、推定された統計量に対して、その信頼区間を求めることもできます。 このような信頼区間をブートストラップ信頼区間といいます。 ブートストラップ信頼区間を求める方法については色々議論があるようですが、主な手法は次の5つです。 正規分布近似法 ベーシック法 パーセンタイル法 BCa法(bias-corrected and accelerated percentile me

    ブートストラップ法で信頼区間を求めるときの注意点 - ほくそ笑む
  • ARIMAX で祝日効果を盛り込んだ時系列予測モデルの作成 - ほくそ笑む

    1. はじめに うちのブログは平日のアクセス数が休日の 2 倍くらいあります。 みなさんお仕事で必要になったときに検索されて、このブログたどり着くのでしょうか。お疲れ様です。 さて、『データサイエンティスト養成読 R活用編』という書籍で、ARIMAX モデルを用いた時系列分析のやり方が載っています。 データサイエンティスト養成読 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus) 作者: 酒巻隆治,里洋平,市川太祐,福島真太朗,安部晃生,和田計也,久空海,西薗良太出版社/メーカー: 技術評論社発売日: 2014/12/12メディア: 大型この商品を含むブログ (7件) を見る 今日は、この書籍を参考に、うちのブログのアクセス数を ARIMAX モデルを用いて予測してみようと思います。 2. データの準備 まず、データですが、2

    ARIMAX で祝日効果を盛り込んだ時系列予測モデルの作成 - ほくそ笑む
  • 交差検証の k の値はどれくらいにすればいいのか - ほくそ笑む

    分類器(識別器)のモデルを評価する手法に交差検証(クロスバリデーション)があります。 交差検証を行うには、データをいくつに分割するかを表す k の値を決めてあげなければなりません。 SVM のチューニングのしかた(1) において、交差検証の k の値を決めるとき、僕は個人的に k = 1 + log(n)/log(2) という式を用いていると書きました。 この式は、知っている人ならわかると思いますが、スタージェスの公式です。 スタージェスの公式は、ヒストグラムを描く際にサンプル数から階級数を決めるのに便利な公式です。 しかし、この公式を交差検証の k を決める際に使用するのは、はっきりいって根拠がありません。 そこで、今日は交差検証の k の値をどのくらいにすれば良いのかについて考えてみたいと思います。 準備(予備知識) k の値は大きければ大きいほど、正確にモデルを評価できます。 k の

    交差検証の k の値はどれくらいにすればいいのか - ほくそ笑む
  • データの不備を統計的に見抜く (Gelman's Secret Weapon) - ほくそ笑む

    リクルートの高柳さん、Yahooの簑田さんと共同で翻訳したが出版されます。 「みんなのR」(原題:R for Everyone)です。 みんなのR -データ分析と統計解析の新しい教科書- 作者: Jared P. Lander,Tokyo.R(協力),高柳慎一,牧山幸史,簑田高志出版社/メーカー: マイナビ発売日: 2015/06/30メディア: 単行(ソフトカバー)この商品を含むブログ (7件) を見る このは、統計言語 R のインストール・基的な使い方から始まり、統計解析の基礎からちょっと高度な話題まで、幅広く取り扱っています。 特徴としては、 RStudio の使用を推奨 グラフィクスはすべて ggplot2 を使用 plyr, data.table, stringr といった、モダンな便利パッケージを使用*1 説明に使用されるデータはすべて Web からダウンロード可能 R

    データの不備を統計的に見抜く (Gelman's Secret Weapon) - ほくそ笑む
    zmsgnk
    zmsgnk 2015/06/17
  • 実践 統計モデリング入門 【1. 概要・目次】 - ほくそ笑む

    【宣伝】2016/09/14 このページに来た方へ。あなたが求めているはこれです。 StanとRでベイズ統計モデリング (Wonderful R) 作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行この商品を含むブログ (10件) を見るまずこれを予約してから下記を読むといいです。 【宣伝終】 はじめに 統計モデリングは今後ますます重要になってくる技術です。 現在、Web 上には統計モデリングに関する様々な優良記事があります。 それらの記事は、完成したモデルをスマートに提示しているものが多いようです。 しかし、実際の統計モデリングの現場は決してスマートなものではなく、様々な泥臭い試行錯誤を行いながら地道にモデルを構築していきます。 この一連の記事では、最終的なモデルの完成形をいきなり提示するのではなく、モデル構築の手順をスッテプバイス

    実践 統計モデリング入門 【1. 概要・目次】 - ほくそ笑む
  • マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む

    対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。 以前、Student の t 検定についての記事を書きました。 小標問題と t検定 - ほくそ笑む しかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況にも対応できるように、Welch の t 検定を使うのがセオリーとなっています。 ただし、これら 2つの検定は分布の正規性を仮定しているため、正規性が仮定できない状況では、Mann-Whitney の U検定というものが広く使われています。 Mann-Whitney の U検定は、正規性を仮定しないノンパラメトリック検定として有名ですが、不等分散の状況でうまく検定できないという問題があることはあまり知られていません。 今日は、これらの問題をすべて解決した、正規性も等分散性も仮定しない最強の検定、Brunner-

    マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む
  • 1