タグ

統計に関するmomotanunのブックマーク (7)

  • 今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk:林岳彦の研究メモ

    どもお久しぶりです。林岳彦です。ローソンなどで売ってるいなばのタイカレーはそうめんのつけ汁として使ってもマジうまいのでオススメです。 さて。 今回は前々回の記事: 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ の続編として、逆のケースとなる「因果関係があるのに相関関係が見られない」ケースについて見ていきたいと思います。あんまり長いと読むのも書くのも大変なので、今回はまずは前編として「検定力の問題」に絞って書いていきます。 (*今回は上記の前々回の記事での記述を下敷きに書いていきますので、分からないところがあったら適宜前々回の記事をご参照ください) まずは(今回の記事における)用語の定義:「相関」と「因果」 今回も少しややこしい話になると思うので、まずは用語の定義をしておきたいと思います。(*細かいと

    今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk:林岳彦の研究メモ
    momotanun
    momotanun 2013/09/03
    うん!
  • むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' )

    はじめに なぜか唐突にRブームが俺の中でやってきてしまってどうしようもないので、Rのを注文しまくってたりしていたら、下のようなの山が出来てしまいました。 これらのを付箋でペタペタしながら読み進めていくうちに、段々とRというのはどういう言語で、どういう風に勉強するといいのか、という方針が固まってきたので、ここにメモをしておきます。 Rとはどのような言語か 一言で、しかも乱暴に言ってしまうならば「統計に特化したPHP」というのが一番雰囲気を伝えられるかもしれない。いや、PHPの悪評は知っているし、ガチでRをやっている人にとっては嫌がられることもわかっているけど、あえてそういう説明が、あくまで入り口としてはわかりやすいのではないかと。 どういうことかというのを言い訳します。 自分が読んだ感じだと、統計というのは、「何らかのデータ」と「分析するためのツールとしての数式」と「その数式が意図する

    むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' )
    momotanun
    momotanun 2013/07/07
    こういう視点がいいよねー
  • 【保存版】企画書に使いたい統計データが見つかる、調査レポートサイト厳選9個+α | Find Job ! Startup

    企画書には、市場規模・ユーザーニーズの裏付け等を説明するために調査データは入れたいところ。 ただ、資料作成で焦っている時ほど、検索しても良い情報が見つかりませんよね。そんな時は、今回ご紹介するサイトの中を覗いてみて下さい。スタートアップが投資家の方など社外向けに資料を作る時に、必ずや役に立つデータが見つかるはずです。 目次 【1】政府機関でデータを公開しているサイト(×2サイト) 【2】リサーチ会社の公開調査を横断的に探せるサイト(×3サイト) 【3】公開調査を見れる調査機関のサイト(×4サイト) 【4】自主調査の結果を公開しているリサーチ会社のサイト(+α) 【1】政府機関でデータを公開しているサイト 1.総務省統計局 総務省統計局のサイトでは、「国勢調査」「人口推計」から、「家計消費状況調査」「サービス産業動向調査」など様々な国内統計データが無料で閲覧できます。統計データ一覧はこち

  • 統計の基本事項

    トップページ→研究分野と周辺→システムの評価→ 基統計量 平均(算術平均)値は、(データ値の総和)÷(データ数)となる。(或るデータの値)-(平均値)を、そのデータの偏差という。偏差の絶対値の大きいデータが多ければ、そのデータ群はばらつきが大きい。データ群のばらつきの大きさを単純に偏差の総和とすると、偏差には正負があるので相殺されてしまう。 そこで、各データの偏差を二乗する(こうすれば必ず正の値になる)。(各データの偏差の二乗の総和)÷(データ数)をそのデータ群の分散と呼び、ばらつきの大きさを表す。また、分散の平方根を標準偏差という。英語では偏差はDeviation、分散はVariance、標準偏差はStandard Deviationとなるので、標準偏差はS.D.と略記される事も多い。 統計の最も基的な量である基統計量としては、他に最大値、最小値、範囲(最大値-最小値)、中央値(デ

  • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

    追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
    momotanun
    momotanun 2013/06/11
    時間ないので後で
  • サービス終了のお知らせ - NAVER まとめ

    サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。 約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。

    サービス終了のお知らせ - NAVER まとめ
  • [書評]統計学が最強の学問である(西内啓): 極東ブログ

    統計学をその「意味」の視点からこれほどわかりやすく解説した書籍はないのではないか。「統計学が最強の学問である」(参照)という表題は挑戦的だが、実際、後半部の応用分野との関わりの解説に力点を置いて読むならなら適切とも言える。しかしなにより、統計学をわかりやすく解説した入門書としてすぐれている。現代人ならどうしても統計学の基礎知識は必要となるので、そういう点からも必読書と言ってもいい。 書の内容は、cakesに連載されていたもので、私も連載当初から読んでいた。語り口が豊かでまた逸話も面白く、オンラインの読み物としてもすぐれているのだが、中盤の回帰分析の説明あたりから、これは集中して読んだほうがいいなと思い直し、年末から正月、Kindle PaperWhiteのブラウザー機能に落とし込んで読んだ。ある程度、濃密なコンテンツになると依然、書籍というのは有利なもので、この連載が書籍化されるなら、早

  • 1