タグ

統計学に関するtt_w54sのブックマーク (38)

  • 信頼区間って難しい。頻度主義者にはなり難い。

    umedam @umedam 【120文字で標誤差を説明】 1)有権者の中の当の内閣支持率が45%だったとする 2)1000人の回答者を無作為に選んで 内閣支持率を質問する 3)2の過程を数多く繰り返すと, 得られた内閣支持率の95%程度が45%±3, すなわち42-48%の間に集まる こんな感じ? 2014-10-13 13:49:30

    信頼区間って難しい。頻度主義者にはなり難い。
  • 統計的学習理論(1): フィッシャー情報量とクラメールラオ下限と最尤法 - アドファイブ日記(ミラー版)

    勉強したことメモ。数式を使わずに書く。 また、行間をスキップせずに、多少くどいかもしれないくらいにきっちり順を追って説明を書いたので長いけどわかりやすくなっているはず。 第一回はベイズの手前まで、最尤法のあたりまでの話をする。 推定量 データを表す確率変数があってその密度関数は何らかのパラメータであらわされているとする。観測したデータから合理的にパラメータを決定するタスクのことを推定という。 推定を世界で最初にガッチリ研究したのはフィッシャーという人で、彼は推定方法の良しあしを判断する基準として、(A)不偏性、(B)有効性、(C)一致性、(D)漸近正規性、(E)十分性、などを考えた。 データからパラメータを推定する手続きは、データの関数として表せる。そういう関数を推定関数、そうやって計算した値を推定量と呼ぶ。 観測されうるデータは確率変数なので、推定量も確率変数となる。 推定量が確率変数だ

    統計的学習理論(1): フィッシャー情報量とクラメールラオ下限と最尤法 - アドファイブ日記(ミラー版)
  • R Time Series Analysis 時系列解析(14) SARIMAモデル - DSL_statblog

    SARIMAモデルとは ARIMAモデルの変化形であるSARIMAモデルの確認を忘れていた。SARIMAモデルとは、通常のARIMA(p,d,q)と季節階差に関するARIMA(k,l,m)を合わせたモデル。季節階差とは、例えば「前年同期との差」のこと。1周期がsである場合に、季節階差を と書くことが出来る。l回季節階差をとった場合はと書く。がAR過程に従うのであれば、 として、 (1) と書ける。MA過程部分を として(1)に追加すれば、 (2) と書ける。(2)はがARIMA(k,l,m)に従うモデル。このモデルは間の関係のみを含んでいるため、これに通常のに関するARIMA(p,d,q)を重ねる。 (3) もちろん、 という意味。…なので、(3)は季節階差がARIMA(k,l,m)に従う系列が、ARIMA(p,d,q)に従うモデルを意味する。これをSARIMA(seasonal ARIM

  • 「頻度論」の学者と「ベイズ論」の学者が対談したら

    東京大学医学部卒(生物統計学専攻)。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバードがん研究センター客員研究員を経て、現在はデータを活用する様々なプロジェクトにおいて調査、分析、システム開発および人材育成に従事する。著書に『統計学が最強の学問である』(ダイヤモンド社)、『1億人のための統計解析』(日経BP社)などがある。 『統計学が最強の学問である[実践編]』発刊記念対談 35万部を突破したベストセラー『統計学が最強の学問である』の続編、『統計学が最強の学問である[実践編]』の出版を記念し、著者・西内啓氏をホストに統計学をめぐるシリーズ対談の連載がスタートします。 ゲストは前統計学会会長、気鋭の経済学者、統計学者など。普段は知ることのできない統計学者の斬新な視点と意見をお楽しみください。 バックナン

  • 東京大学出版会『統計学入門』は入門を一通り終えた人におすすめ|Colorless Green Ideas

    東京大学出版会から出ている『基礎統計学I 統計学入門』というがある。 東京大学教養学部統計学教室〔編〕 (1991). 『基礎統計学I 統計学入門』 東京:東京大学出版会. このは、統計を学ぶ際によくすすめられる一冊である。例えば、ウェブ上にある記事で、『統計学入門』を挙げているものに以下のようなものがある。 2014年春版:ビジネスにおけるデータ分析のプロを目指すなら揃えておくべき12冊(銀座で働くData Scientistのブログ) 一年で身に付ける!Rと統計学・機械学習の4ステップ(iAnalysis ~おとうさんの解析日記~) 統計分析を学ぶための書籍20選(XICA-Labs データ・統計分析研究所) それでは、なぜこのはすすめられるのだろうか? そして、どういう人がこのを読むべきなのだろうか? タイトルに『統計学入門』とあるように、統計の初心者にとって良いなのだろう

    東京大学出版会『統計学入門』は入門を一通り終えた人におすすめ|Colorless Green Ideas
  • ダメな統計学:目次|Colorless Green Ideas

    2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。 はじめに データ分析入門 検定力と検定力の足りない統計 擬似反復:データを賢く選べ p値と基準率の誤り 有意であるかないかの違いが有意差でない場合 停止規則と

    ダメな統計学:目次|Colorless Green Ideas
  • 最尤法によるフィッティング

    [2014年11月15日いわき生涯学習プラザでのトークの最後の部分を拡張したものです] 簡単な例題 平均10,標準偏差3の正規分布の密度関数 $\frac{1}{\sqrt{2\pi}\cdot 3} e^{-(x-10)^2/(2\cdot 3^2)}$ と指数関数 $e^{-x/10}$ とを $50:10$ で混ぜ合わせた簡単な関数を考えます: \[ \mu(x) = \frac{50}{\sqrt{2\pi}\cdot 3} e^{-(x-10)^2/(2\cdot 3^2)} + 10e^{-x/10} \] $x = 1,2,\ldots,20$ について,上の式で与えられる値を平均値とするポアソン分布 $\displaystyle p_y = \frac{\mu^y e^{-\mu}}{y!}$ の乱数 $y$ を発生します: f = function(x) { 50*dno

  • 統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!

    稿では統計学・データマイニング・機械学習関連書籍について 内容が易しいこと。数学力(特に微積・線形代数)を求められないこと 入手しやすいこと。絶版や学会に入らないと入手不可などではない、値段が安いこと 実務に繋げやすいこと。 持ち運びしやすいこと。忙しい新社会人が通勤中や休み時間ポケットからさっと取り出し、継続して勉強出来ること を主眼に選定したお薦め書籍を紹介します。 (満たせない要望も多いですが) 主な対象者は、文系で数学や統計学をやってこなかった、 プログラミングもわからない(Excelで四則演算やマウス操作くらいは使える) けどいつかマーケティングやデータマイニングやってやるぜ! って考えてる新卒の方です。 筆者自身は経済学科出身の文系で、あまり数学力に自信がないなりに Web企業でデータマイニングをしているという人間です。 ここで紹介している内容で 「統計学・機械学習・データマ

    統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!
  • 文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート

    最初の1年で読むべきを考える 私の統計学の理解はまだまだ初歩レベルに留まっていますが、昨日飲んでる時に「初心者向けの統計のってどういうのが分かりやすいですか」というようなことを訊かれて、「俺に訊かれてもあまり参考には……」とか思う一方、まだ初歩レベルの位置にいる人間だからこそ言える「このが分かりやすかったよ論」ってのもあるよなと思ったので、現時点での読書感想みたいなものをメモしておきます。一昨年、統計の勉強を始めた頃の自分にむかって書いてる感じです。 理系の人とか、ある程度統計の理解ができている人からみれば、「質的な理解のためにはもっと難しいがいいよ」ってなるかも知れませんが、「いやそんな難しいの勧められても独学のモチベーションが続かねーよ」っていう立場でまとめておきますw ここでは、 統計の勉強はしたことがなく、標準偏差とか言われても意味分からない プログラミングも全くわからな

    文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート
  • R言語で統計解析入門: 操作:データセット「iris」の解析とグラフ作成 梶山 喜一郎

    「データ」の表示 「Rコンソール」 画面に, iris #  と記述すると,Rに組み込みこまれているFisherの研究で使われた「iris」データ 150サンプルが表示される. 「データの構造」の表示 「Rコンソール」 画面に, str (iris) #  と記述すると,「irisデータの構造」が表示され,5変数の名前と,型が表示される. ・Sepal.Length: num 数値型  ・Sepal.Width : num 数値型  ・Petal.Length: num 数値型  ・Petal.Width : num 数値型 ・Species  : Factor 因子型 あやめの大きな3枚のはなびらは,「Sepal がく片」で,小さな3枚のはなびらが,「Petal 花びら」である. Sepal「がく片」の長さと幅・Petal「花びら」の長さと幅 Species「あやめ3品種 [setosa

  • Rで季節変動のある時系列データを扱ってみる - 渋谷駅前で働くデータサイエンティストのブログ

    Rで計量時系列分析シリーズでだいぶ時系列データの話をしてきたわけですが、最近個人的に季節変動のあるデータを扱うケースが増えてきたので、備忘録的にまとめてみようかなと。 一般に、webデータサイエンスの領域で季節変動というと業種や領域にもよるものの、おおむね 週次*1 月次*2 四半期ごと*3 年次or12ヶ月ごと*4 辺りが多いと理解してます(もちろん必ずしもこればかりではないので念のため)。ちなみにこの辺の大ざっぱなまとめが「季節調整」のWikipedia項目に書かれているので、そちらもどぞー。 この辺の処理はRだとかなりお手軽にできるんですが、結構Rならではの約束ごとが多くていきなりやろうとすると「何じゃこりゃ???」みたいなことになりがちです。ということで、その辺のポイントをざっくりまとめておきました。 必要なRパッケージ 今回は{forecast}だけインストールして展開しておけば

    Rで季節変動のある時系列データを扱ってみる - 渋谷駅前で働くデータサイエンティストのブログ
  • 導入事例『新手法例 時系列分析(ARIMAモデル)の機能とその活用』

    ホーム >統計解析・品質管理 >導入事例 >JUSEパッケージ活用事例シンポジウム 新手法例 時系列分析(ARIMAモデル)の機能とその活用(株式会社日科学技術研修所 王 克義) こちらの内容は,第10回JUSEパッケージ活用事例シンポジウム 多変量解析・信頼性解析セッション での新製品機能紹介をまとめたものです. 1. はじめに 時系列データは,通常,時間軸上で等間隔に観測される系列的なデータ群をいう.そのため,各観測値は独立であるという通常の統計解析における仮定が成立しないので,これらの時間軸上の構造的あるいは周期的変動を考慮した特有な分析手法が必要になる.時系列分析はこれらの時系列な現象が時間とともにどのように変化していくか,将来どのようになるかを分析,予測することである. 時系列分析の目的 は以下の通りである. 記述 (Description) 時系列を図示したり,基的な記述統

    導入事例『新手法例 時系列分析(ARIMAモデル)の機能とその活用』
  • データ分析を「させる(依頼する)」側に最低限知っていて欲しい4つの分析コンセプト - 渋谷駅前で働くデータサイエンティストのブログ

    世の中データ分析部門を立ち上げる企業が増えてきて、「データサイエンティスト」と名乗ろうが名乗るまいがデータ分析者を置いて様々なビジネス上のデータを分析させるところが目立ってきました。 でも、一方で実際のデータ分析者たちが何をやっていて、どういうアウトプットを出しているのか?について、きちんと理解している人はあまり多くなさそうに見えます。うっかりすると、「金とデータは渡すから良きに計らえ」*1ってところも少なくないかも。。。 それではあまりにもざっくりし過ぎているので、実際のデータ分析者がどんなことをしているのかを、超絶大ざっぱに4つに分けてみました*2。即ち、「回帰・分類・推定・予測」の4つのコンセプトです。今回はこの4つのコンセプトについて、データ分析を「させる(依頼する)」側の人たちに出来る限り分かりやすく説明してみようと思います。 ということで、データ分析を「させる(依頼する)」側の

    データ分析を「させる(依頼する)」側に最低限知っていて欲しい4つの分析コンセプト - 渋谷駅前で働くデータサイエンティストのブログ
  • ハンバーガー統計学にようこそ!

    |向後研究室ホームへ|次へ→ ハンバーガーショップで学ぶ 楽しい統計学 ──平均から分散分析まで── Web独習教材「ハンバーガーショップで学ぶ楽しい統計学《にようこそ! この教材は、実際に大学の授業で使用したものです。それを一般公開しますので、どうぞお役立てください。 下のメニューに従って1章から7章まで順番に学習していくと、平均から分散分析までを習得することができます。大学の卒業論文レベルで使う統計学として、きっと役立つことでしょう。なお、相関(相関から因子分析まで)については、姉妹編の「アイスクリーム屋さんで学ぶ楽しい統計学《が公開されています。 さあ、がんばって進めていきましょう。 教材メニュー

  • Rによる最適化、パラメータ推定入門 - yasuhisa's blog

    パラメータの推定、でもその前に optimize関数について 補足 パラメータの推定 ベルヌーイ分布 定式化(尤度関数) 尤度関数の実装 尤度関数の最適化(パラメータ推定) 正規分布におけるパラメータ推定 まとめ パラメータの推定、でもその前に統計におけるパラメータの推定というのは大体最適化問題に帰着します。「なんとか関数を(最大|最小)にするようなパラーメータほにゃららを求めたい」とまあこんな感じで。というわけで、パラメータ推定は置いておいて、Rで最大化問題、最小化問題をどう解くかというところを最初にやってみようと思います。最適化問題は離散最適と連続のほうの最適に分けられますが、ここでは連続についての最適化問題について考えることにします。 optimize関数について Rにおける最適化をするための関数はoptim関数、optimize関数があります(他にもnlsなどありますが、とりあえず

    Rによる最適化、パラメータ推定入門 - yasuhisa's blog
  • データサイエンティスト レベル表 - shakezoの日記

    プログラマレベルというページがとても面白かったのでデータサイエンティスト版つくってみました。データサイエンティストの定義は[twitter:@TJO_datasci]さんのQuantitative analystに準拠しつつ技術面に焦点をあててレベル分けしています。 レベル0 このレベルの人はデータ分析をしたことがありません。最近テレビでよく目にするビッグデータについては何だが凄そうというイメージは持っています。そしてデータサイエンティストという言葉を知らない人が大半です。 ありがちな発言 「ビッグデータってすごいらしいね」 レベル1 レベル1の人達は仕事や大学等の課題でExcelを用いた集計や簡単な相関分析などを実施したことがあります。ただし分析にあまり興味を持っておらずデータをニヤニヤしながら眺めている上位レベルの人達を変人だと思っています。彼らにとってビッグデータやデータサイエンティ

    データサイエンティスト レベル表 - shakezoの日記
  • 『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊 - 渋谷駅前で働くデータサイエンティストのブログ

    執筆陣12人中8人が直接の知人友人というこの新刊書でございますが。 データサイエンティスト養成読 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus) 作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋武彦,里洋平,和田計也,早川敦士,倉橋一成出版社/メーカー: 技術評論社発売日: 2013/08/08メディア: 大型この商品を含むブログ (4件) を見る もちろん僕も発刊が決まってAmazonに予約ページができた時点でポチりまして、読んでみたところあまりにも内容が素晴らしかったので早速現職場の図書コーナーに持ち込んだ次第です(笑)。ということで、僭越ながら書評など書かせて頂こうかと思います。 ざっくり内容紹介 正直言って、ものすごーーーく網羅的で非常によく出来ています。1ページ目から順に読んでいっても初学

    『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊 - 渋谷駅前で働くデータサイエンティストのブログ
  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

  • 世論調査の誤差 (韓国KBS TVの大統領選報道) | ず@沖縄

    以下のTweetを見かけたので、どのような報道があったのか自動翻訳を駆使して追っかけてみた。 今朝ニュースを見ていたら、韓国KBSが大統領選の世論調査の結果を報じていた。忘れられないのが、結果に続いて、どういう統計なのか、標準誤差はどの程度なのか、しっかり示していたこと。彼の国の自然科学に対する姿勢がしっかりしていて、このままじゃ彼の国には勝てないなぁと強く思った。 — Hiroki Akiba (@fshiakib) November 26, 2012 該当するのはKBS NEWS – [여론조사] 朴 41.7% vs 文 39.9%…오차 범위내 접전と思われる。 記事タイトルには「誤差の範囲内の接戦」(오차 범위내 접전)と書かれている。記事内でも誤差はプラスマイナス3.1%と明記されている。明快だ。 이번 여론조사는 KBS가 미디어리서치에 의뢰해 성인남녀 천 명을 대상으로

    tt_w54s
    tt_w54s 2013/07/16
    もっと早く知りたかった。
  • cakes(ケイクス)

    cakesは2022年8月31日に終了いたしました。 10年間の長きにわたり、ご愛読ありがとうございました。 2022年9月1日

    cakes(ケイクス)