[B! Statistics] [3ページ] somemoのブックマーク

GitHub - wesm/pydata-book: Materials and IPython notebooks for "Python for Data Analysis" by Wes McKinney, published by O'Reilly Media

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

somemo 2014/09/13

リンク

データビジネス・分析・開発に関して2013年に読んだ本 - About connecting the dots.

そういえば，昨年に読んだ本についてまとめてなかったなと気がついたので，もう1月も終わりに近づいてはいますが，まとめてみました．この1年間で，お仕事はHadoop基盤の開発+運用メインから，分析メインに移り，さらにはマネージャーになる形で動いているので，割と読む本の質も変わってきた感じがします．そんなわけで，カテゴリ毎に読んで良かった順番に並べていきます．カテゴリは以下の3つにわけました．最近はデータビジネスの比重がどんどん増えてきる感じです．自分の備忘録的な物が第一ですが，何をしているかを他の人にシェアしましょうというのもあります．何かしら参考になることがあれば幸いです．データビジネスデータ分析ソフトウェア開発データビジネス失敗の本質失敗の本質―日本軍の組織論的研究 (中公文庫) 作者: 戸部良一,寺本義也,鎌田伸一,杉之尾孝生,村井友秀,野中郁次郎出版社/メーカー: 中央公

somemo 2014/09/13

statistics

リンク

【２】判別分析

somemo 2014/09/10

statistics

リンク

マハラノビス距離 - Wikipedia

多変数間の相関に基づくものであり、多変量解析に用いられる。新たな標本につき、類似性によって既知の標本との関係を明らかにするのに有用である。データの相関を考慮し、また尺度水準によらないという点で、ユークリッド空間で定義される普通のユークリッド距離とは異なる。ある集団内の点が多変数ベクトルで表されるとき、その集団の変数ごとの平均値を縦ベクトルでと表し、集団の共分散行列（各変数間の共分散を配列した行列）をとすれば、ある点からの集団へのマハラノビス距離は、以下のように定義される：平方根の内側は、縦ベクトルの転置と行列と縦ベクトルの積であり、スカラー量（正値二次形式）で正である。マハラノビス距離はまた、共分散行列がで同じ確率分布に従う2つの確率変数ベクトル、との間の隔たりの指標としても定義できる：共分散行列が対角行列であれば（相異なる変数に相関がないということ）、マハラノビス距

somemo 2014/09/10

リンク

判別分析 - Wikipedia

判別関数には以下の物などがある。線形判別関数[注釈 6] 超平面・直線による判別。線形判別分析は等分散性が必要。二次判別関数[注釈 7] 楕円など二次関数による判別。二次判別分析は等分散性が不要。非線形判別関数[注釈 8] 超曲面・曲線などの非線形判別関数。線形判別分析は、以下の前提条件が成立する必要がある。各グループは多変量正規分布[注釈 9]している全てのグループが同じ共分散行列を持つ（等分散性）その上で、マハラノビス汎距離[注釈 10]が等距離の所に直線を引く。これらの前提条件が成立しないとおかしな結果になる。各グループの平均が異なる以上、分散が異なることは多々ある。等分散性の仮定を外した物が二次判別分析である。それぞれのグループで異なる共分散行列を使用してマハラノビス距離を計算して、等距離になる場所を判別曲面とする方法である。この方法は二次関数となり、正規分布が成立

somemo 2014/09/10

statistics

リンク

http://www.cs.t-kougei.ac.jp/SSys/Apriori.htm

somemo 2014/08/19

リンク

層化抽出法 - Wikipedia

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。（このテンプレートの使い方）出典検索?: "層化抽出法" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL (2023年12月) 部分母集団が互いに大きく異なるとき、各部分母集団（層）毎にサンプルを抽出することに意味がある。層化(Stratification)とは、母集団を相対的に同質なグループに分けるプロセスであり、サンプリングの前に行われる。層は相互排他的である。すなわち母集団の要素はいずれか1つの層にのみ属する。層は集合的網羅的でもある。すなわち各要素は必ずいずれかの層に属する。各層からの抽出は無作為あるいは機械的に行われる。層化抽出法はしばしば標本誤差を減らし、サンプルの質を

somemo 2014/08/13

statistics

リンク

はじめよう多変量解析～主成分分析編～

第31回Tokyo.Rで発表した資料です。Rを用いて主成分分析について解説しています。Read less

somemo 2014/08/07

statistics

リンク

サンプルデータファイル村瀬SPSS SAMPLE DATA FILES by MURASE Yoichi, HIROSE Tsuyoshi, TAKADA Hiroshi

『SPSSによる多変量解析』　サンプルデータ http://shakaichousa.net/mua 分析実習用資料　教育研究目的ならば誰でも自由にお使いください村瀬洋一・高田洋・廣瀬毅士編『SPSSによる多変量解析』オーム社(2007年12月発行) で用いた各種サンプルデータを掲示しています。主に用いたのは、都道府県別データと、仙北調査データです。ご自由にお使いください。練習用に人数を減らしたデータがあるので、研究用に大きなデータ用いたい時は個別にご連絡ください。　em ail muraseyo ○gmail.com 『SPSSによる多変量解析』目次はじめにサンプルデータについて第１章　統計分析の目的とは　　　　　　　　　　村瀬洋一第２章　SPSSの基本操作　　　　　　　　　　　　　神林博史第３章　統計分析の基礎　　　　　　　　　　神林博史第４章　クロス集計、独立性

somemo 2014/07/22

statistics

リンク

「統計学関連なんでもあり」の過去ログ---024

somemo 2014/07/09

statistics

リンク

尖度と歪度の標準誤差とは - OKWAVE

エクセルで標準誤差を出す方法を教えてください。今回、以下のようなデータを解析するためにエクセルを用いて、標準誤差を出さなくてはならないのですが、エクセルにある関数の標準誤差はちょっと違うみたいなのですが・・・調べたら「教えてgoo」にも同様の質問があったのですが、回答されていたURLがnot foundになってしまっていて見ることができません出した。エクセルを用いた標準誤差の出し方を教えてください。最高血圧　最低血圧　心拍数１　 88.5 　　　 58 　　　　　　 79.5 ２　 106　　　　56.5 　　　　　　 79.5 ３　 100　　　　 59.5 　　　　　　 76 ４　 103.5　　　　 61 　　　　　　84 ５　 73 　　　　 53 　　　　　　67 ６　 112 　　　　 59.5 　　　　　 79.5 ７　 102 　　　　63.5

somemo 2014/06/29

statistics

リンク

統計解析道具箱標準偏差（SD）と標準誤差（SE）

なんらかの仮説をたて、母集団を定義して標本を抽出し、アンケート調査や測定調査によりデータを集め、それらを統計ソフトに入力して、統計処理を行います。この解析結果は、分析者によって吟味考察されて、レポートや論文などにまとめられます。その際、分析の結果を記述統計量や推測統計にもとづく結果などを提示することになりますが、分析結果の要約を行う場合に、標準偏差(SD)と標準誤差(SE)を利用する場合があります。標準偏差(Standard Deviation)は、平均値に対する観測データの散らばりをあらわす記述統計量で、SDと省略して表現されます。変数が正規分布にしたがう場合は、平均値から1×標準偏差の範囲内に、約68％の観測データが含まれることを意味します（2×標準偏差で考えると約95％が含まれます）。標準誤差(Standard Error)は、標本の散らばりを表す記述統計量で、SEと省略して表

somemo 2014/06/29

statistics

リンク

統計的学習理論（１）：フィッシャー情報量とクラメールラオ下限と最尤法 - アドファイブ日記（ミラー版）

勉強したことメモ。数式を使わずに書く。また、行間をスキップせずに、多少くどいかもしれないくらいにきっちり順を追って説明を書いたので長いけどわかりやすくなっているはず。第一回はベイズの手前まで、最尤法のあたりまでの話をする。推定量データを表す確率変数があってその密度関数は何らかのパラメータであらわされているとする。観測したデータから合理的にパラメータを決定するタスクのことを推定という。推定を世界で最初にガッチリ研究したのはフィッシャーという人で、彼は推定方法の良しあしを判断する基準として、（A）不偏性、（B）有効性、（C）一致性、（D）漸近正規性、（E）十分性、などを考えた。データからパラメータを推定する手続きは、データの関数として表せる。そういう関数を推定関数、そうやって計算した値を推定量と呼ぶ。観測されうるデータは確率変数なので、推定量も確率変数となる。推定量が確率変数だ

somemo 2014/06/27

statistics

リンク

欠損値があるデータの分析 | Sunny side up!

HAD11.3から，欠損値のあるデータを分析できるようになりました。この記事では，欠損値の処理と，その推定方法について簡単に書きます。ただ，この記事は数式とかそういう話はないので，詳しいことを知りたい方は村山航さんの記事(PDFが開きます)や，広大の徳岡君の資料などを参考にしてみてください。これらはとてもよくまとまっていて，わかりやすいです。欠損値の3つのタイプ欠損値が生じる要因として，大きく分けて3つが考えられています（細かく言えばもっとある）。データが，完全にランダムに欠損するデータが，測定されている値に依存して欠損する（欠損データとは無関係）データが，欠損データに依存して欠損する違いがちょっと分かりにくいですね。具体的に説明しましょう。まず，データが完全にランダムに欠損するとは，データに反応しないのが，「たまたま」ということです。データになんにも依存していなくて，ほん

somemo 2014/06/26

Statistics

リンク

統計的学習の基礎 - 共立出版

機械学習とは、コンピュータに学習能力を持たせるための方法論を研究する学問の名称であり、もともとは人工知能分野の一部として研究されていた。その後、機械学習は統計学と密接な関わりを持つようになり、「統計的学習」として独自の発展の道を歩み始めた。そして、1990年代から現在に至るまでの計算機やインターネットの爆発的な普及と相まって統計的学習の技術は目覚ましい発展を遂げ、いまや情報検索、オンラインショッピングなど、われわれの日常生活とは切り離すことのできない情報通信技術の根幹を支える重要な要素技術の一つとなった。本書は、このような発展著しい統計的学習分野の世界的に著名な教科書である“The Elements of Statistical Learning” の全訳である。回帰や分類などの教師あり学習の入門的な話題から、ニューラルネットワーク、サポートベクトルマシンなどのより洗練された学習器、ブー

somemo 2014/06/15

リンク

統計局ホームページ

分析レポート統計ヘッドライン - 統計局月次レポート -令和6年12月12日更新令和6年12月（統計ヘッドライン No.178）統計Today - 統計をめぐる新しい動きやメッセージ -令和6年10月29日更新令和7年国勢調査実施本部の発足～令和7年国勢調査まであと1年～（統計Today No.203）（PDF：1,001KB）統計トピックス - 「国民の祝日」や季節にちなんだ統計データ -令和6年9月15日更新統計トピックスNo.142　統計からみた我が国の高齢者－「敬老の日」にちなんで－労働力調査ミニトピックス - 労働力調査結果に関する分析レポート - 家計ミニトピックス - 家計調査結果に関する分析レポート - 小売ミニトピックス - 小売物価統計調査結果に関する分析レポート - 統計を学ぶ・児童・生徒向け学習サイト・先生向け学習サイト（授業モデル・補助教材等）

somemo 2014/05/05

statistics

リンク

ソーシャルゲームにレコメンドエンジンを導入した話

CEDEC2013にて発表させていただいた内容の一般公開用スライドです。ネットサービスの基本中の基本とされるKPI 「DAU（Daily Active Users）」。売上の分解にも使いやすく、複数のサービスを比較するときには必須の指標です。しかし、運営の現場では「ノイズが多くて使いにくい」「経営者（えらい人）にサービスの状況の誤解を与える」という扱いを受けがちな指標でもあります。セッションの内容 : 本セッションでは、ソーシャルゲームのDAUを題材に、測り方にほんの少し工夫（工夫の方法は汎用的なものです）を加えることで、DAUを現場の肌感覚にもあう指標に変身させる方法、特に、運営期間が長くなったサービスにおける課題抽出に活用する方法をご紹介します。発表日時 : 2013年8月23日(金) 16:30～17:30 詳細URL : http://cedec.cesa.or.jp/201

somemo 2014/04/30

statistics

リンク

最尤推定、MAP推定、ベイズ推定 - 人工知能に関する断創録

1.2.5 曲線フィッティング再訪 1.2.6 ベイズ曲線フィッティングのところを実装してみます。前回は、最小二乗法で曲線フィッティングをしたけど、ベイズ的な方法で解こうって話のようです。この2つの節では、最尤推定最大事後確率（MAP）推定ベイズ推定という3つのパラメータ推定方法が曲線フィッティングという具体例で説明されてます。他の教科書では抽象的に定式化されていて違いがよくわからなかったけど、この章では曲線フィッティングという具体例に基づいて説明されているのでわかりやすいと感じました。最尤推定まず、最尤推定のプログラムです。実は、最尤推定で対数尤度（1.62）を最大化することは、最小二乗法の二乗和誤差関数E(w)の最小化と等価なのでwの求め方は最小二乗法（2010/3/27）とまったく同じです。最尤推定では、目標値tの予測分布を求めるためもう1個予測分布の精度パラメータ（

somemo 2014/04/24

statistics

リンク

従来の推定法とベイズ推定法の違い | Sunny side up!

ベイズ推定って、最近はやってきてますね。僕も流行りにおいて行かれないように勉強しています。理論的な話や数学的な話はいろいろWebや本をあされば出てきますが、実用面とか解釈面について言及しているものは少ないですね。今回は清水の個人的な意見として、ベイズがどういう風に使えそうか書いてみます。数学的な話はなしで。よくわからないので。興味ある人は続きをどうぞ。 2016/2/1追記：ベイズ統計について，入門的な資料を作りました。心理学者のためのベイズ統計入門もあわせてどうぞ。ベイズ推定法の前に、従来法の代表として最尤推定法について触れておきます。その方法とベイズがどう違うのかについて、そのあと述べます。最尤推定法最尤法ともいわれますが、基本的な発想は、モデルとデータの関係を次のように考えます。真のモデルというのがあって、我々はそのモデルから発生したデータを手に入れている。真値は一つ