タグ

統計学に関するZAORIKUのブックマーク (22)

  • 科学史から最小二乗法 (回帰分析) を説明してみる - ill-identified diary

    2016/12/15: にわかに閲覧者が増えたのでおかしなところを微修正 概要 統計学史をちょっと調べていておもしろかったのでまとめてみた 技術的にはすごく初歩的な話なので, 回帰分析 (最小二乗法) の入門的な「読み物」という位置づけになりそう 入門的な読み物なので, 特に最小二乗法の説明箇所は中学高校の数学の知識だけで理解できるような表現をしている, したつもり. PDF換算で 10 ページ (ただし画像が結構多い) 惑星の軌道を予測する連立方程式で惑星の軌道を予測する19世紀初頭にフランスの数学者ルジャンドル*1が最小二乗法のアイディアを最初に発表したが, ドイツ数学者ガウス*2が直後に自分こそが先に思いついたと主張し, 論争を生んだという (Abdulle & Wanner, 2002, 200 Years of Least Squares Method). しかし, いずれが先

    科学史から最小二乗法 (回帰分析) を説明してみる - ill-identified diary
  • 多重比較

    多重比較 multiple comparison (Post-hoc test) 検定の多重性の理解は重要! 1)多重比較とは 3つ以上の群で、個々の群と群を検定する場合に、有意水準を上げずに(第一種過誤率を保ったまま)行う検定法。 ANOVA(分散分析)で、有意差があった場合にどの群とどの群に有意差があるか調べる場合に使用されることが多い。 2)多重性とは ひとつの実験系で、統計的検定を繰り返すことをいう。 検定を繰り返すことにより、1回のみ検定を行った場合より第一種過誤率が大きくなってしまう。 すなわち、有意差がでる可能性が高くなってしまう。 3)なぜ、多重比較が必要か 分散分析のところでも述べたが、多群の比較をおこなうのに例えば2標t検定を繰り返すと有意水準があまくなってしまうのである。 A,B,Cの3群について、A-B,A-C,B-Cの すべてについて2標t検定を行

  • コンピュータービジョンの無料チュートリアル - ベイズ推定とグラフィカルモデル:コンピュータビジョン基礎1

    Learn essence of "Computer Vision: Models, Learning, and Inference"

    コンピュータービジョンの無料チュートリアル - ベイズ推定とグラフィカルモデル:コンピュータビジョン基礎1
  • 2013年秋版:データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ

    前回の書籍リストは、基的には「そこそこ統計学のことは知っていて」「機械学習とはどんなものかというイメージがあって」「Pythonの初歩ぐらいはできて」「を見ながらで良ければRを使える」人たちを対象にしたものでした。 なのですが、世の中そんな最初から基礎レベルであってもきちんとスキルが揃ってる人なんてそうそう多くないわけで*1、特に今の「ビッグデータ」「データサイエンティスト」ブームを受けて勉強を始める人のほとんどが完全な初心者でしょう。 ということで、僕が実際に読んだことがあったり人から借りて読んでみたり書店で立ち読みしたりしたものの中から、そういう初心者向けのテキストを5冊に絞って紹介してみます。なお、毎回毎回しつこいですが下のリンクから書籍を購入されても、儲かるのは僕ではなくはてななのでそこのところよろしくです(笑)。 データ分析の「考え方」を身に付けるために 色々評判の良いものも

    2013年秋版:データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ
  • 統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!

    稿では統計学・データマイニング・機械学習関連書籍について 内容が易しいこと。数学力(特に微積・線形代数)を求められないこと 入手しやすいこと。絶版や学会に入らないと入手不可などではない、値段が安いこと 実務に繋げやすいこと。 持ち運びしやすいこと。忙しい新社会人が通勤中や休み時間ポケットからさっと取り出し、継続して勉強出来ること を主眼に選定したお薦め書籍を紹介します。 (満たせない要望も多いですが) 主な対象者は、文系で数学や統計学をやってこなかった、 プログラミングもわからない(Excelで四則演算やマウス操作くらいは使える) けどいつかマーケティングやデータマイニングやってやるぜ! って考えてる新卒の方です。 筆者自身は経済学科出身の文系で、あまり数学力に自信がないなりに Web企業でデータマイニングをしているという人間です。 ここで紹介している内容で 「統計学・機械学習・データマ

    統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!
  • オンラインで無料で読める統計書22冊|Colorless Green Ideas

    はじめに 今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれたが多いが、日語で書かれたも若干ある。 入門書 まず、統計の初学者のために書かれた入門書を紹介したいと思う。 福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。 小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論

    オンラインで無料で読める統計書22冊|Colorless Green Ideas
  • A borderline definite marginally mild notably numerically increasing suggestively verging on significant result

    Get Big Think for Your Business. Enable transformation and drive culture at your company with lessons from the biggest thinkers in the world.

    A borderline definite marginally mild notably numerically increasing suggestively verging on significant result
  • 統計屋はどこまで給料をもらうべきか - Willyの脳内日記

    アカデミアでもビジネスでも統計解析のニーズは高くて、 データを分析して欲しいというような依頼は結構くる。 しかし、分析の対価としてどこまで給料をもらうべきなのか、 というのはなかなか難しい問題だ。 完全にビジネスとして外注して、博士レベルの統計屋に 分析をさせると、単価は1時間で100ドル前後のようだ。 以前に、コンサルティング会社が時給75ドルでそういった求人を 出していたから、マージンなどを考えれば大体そんなものなのだろう。 継続的に分析案件が発生するのであれば、 常勤で統計屋を雇えばもっと安く済む。 私も、大学院生の時は、医学部でデータの分析をして、 生活費や給料、健康保険料を払ってもらっていた。 一番厄介なのは、依頼者が案件をあくまで「共同研究」だと考えている場合である。 もちろん雑誌や学会等に投稿することになれば、 分析者として共著者に名前を入れてもらうことになるが、 それが統計

  • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

    追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
  • 第31回Tokyo.Rを開催しました - yokkunsの日記

    第31回Tokyo.Rを開催しました。 ※ 資料がまだのものは、公開され次第追記します! 前半(初心者セッション) 初心者セッション1 (所沢義男) TokyoR#31 初心者セッション from TokorosawaYoshio Rによるやさしい統計学 第7章 分散分析(後半の後半) (@aad34210) Tokyo r30 anova_part2 from Takashi Minoda 中の人が語る seekR.jp の裏技 (@hiratake55) 中の人が語る seekR.jp の裏側 from hiratake55 後半 始めよう多変量解析〜主成分分析編〜 (@sanoche16) Tokyor31 from Hiroki Sano R言語で学ぶマーケティング分析 – 競争ポジショニング戦略 – (@yokkuns) R言語で学ぶマーケティング分析 競争ポジショニング戦略 f

    第31回Tokyo.Rを開催しました - yokkunsの日記
  • データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ

    追記2 2015年末の時点での最新リストはこちらです。 追記 この記事の5カ月後にもう少し更新した内容の「お薦めリスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 六木で働くデータサイエンティストのブログ 2013年秋版:データ分析初心者にお薦めする「基礎を当にゼロから学ぶ」ためのテキスト5冊 - 六木で働くデータサイエンティストのブログ 今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。 ※以下僕も持っているものには「*」を打ってあります*1*2*3 統計学 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メ

    データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ
  • 【データ分析】『統計学が最強の学問である』西内 啓 : マインドマップ的読書感想文

    統計学が最強の学問である 【の概要】◆今日ご紹介するのは、先日の「未読・気になる」の記事でも人気だった1冊。 サブタイトルとして「データ社会を生きぬくための武器と教養」とあり、なるほどそうだと感じいりました。 アマゾンの内容紹介から一部引用。あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。 「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人が、その当の魅力とパワフルさを知っているだろうか。 私はぶっちゃけ「超文系人間」ですが、書に目を通しておいて良かったと思っております。 いつも応援ありがとうございます! 【ポイント】■1.統計的にあみだくじは端が当たりにくい 友人たちのクセなのか、人間心理の傾向なのか、両端の縦棒を先に選ばれたことはほ

  • 実質的な意義と統計学上の有意性の乖離

    問: 相関係数が 0.8 と大きいのに,無相関検定を行うと「有意ではない」という結果になりました。どうしたらいいのですか。 2 群の平均値の差の検定をしました。平均値の差が小さいのに,検定では「有意な差である」という結果になりました。どうしたらいいのですか。 検定を行う場合,ケース数が大きければどのようなわずかの差であっても帰無仮説が棄却されることがあります。 逆に,ケース数が小さい場合にはどんなに差があっても帰無仮説は採択されてしまうことがあります。 例えば,相関係数の検定(母相関係数=0)を考えてみましょう。 帰無仮説 H0:「母相関係数ρ=0」相関関係はない。 対立仮説 H1:「母相関係数ρ≠0」。 両側検定を行う。 検定に用いられる式は,相関係数を r ,ケース数を n としたとき,以下のようになります。 この式を見れば明らかなように,ケース数が大きいほど,また,標相関係数が大き

  • 第5回 正規分布の特徴

    正規分布の特徴を具体的に考えてみましょう.20~24歳の男性の身長は人間生活工学研究センターの調査(1992-1994)によると,平均(μ)170.5cm,標準偏差(σ)5.9cmでした.身長の分布が正規分布に従うとしますと,このことから2σ以上平均より背の高い人,すなわち182.3cm以上の人は全体の2.2%になります.平均から標準偏差以内,すなわち164.6~176.4cmに全体の68%が属します.全体の95%は158.9~182.1cmに属します. 1.正規分布 正規分布は自然界で起こる現象の多くがその分布に当てはまること,特に平均値に関する分布が当てはまることから,統計学では最も重要な分布となっています. この結果から,どのような母集団であっても,標平均の分布については以下のことがいえそうです. 1) 標平均の分布の平均は母集団の平均とほぼ同じになることが多い. 2) 標平均

  • 生態学データ解析 - FrontPage

    生態学で使われるデータ解析・統計モデリングをあつかうサイトです. サイト管理者: 久保拓弥 内容: 統計学授業, R 関連, GLM 関連, GLMM 関連, ベイズ統計 & MCMC, よくある質問 などなど 全ペイジ一覧 統計学授業など 統計学授業: 久保の北大での授業 (cf. ELMS) 統計学授業の教科書: 「データ解析のための統計モデリング入門」 集中講義・セミナーなどはこちら 配信版: 配信版・統計モデリング入門 よくある質問あれこれ 生態学会大会などでの活動 生態学会の自由集会など (これまでの一覧) 2018 年 3 月 札幌大会: データ解析で出会う統計的問題: R の新しい作図・作表 生態学会誌などに掲載された 解説文一覧 (ダウンロードできるものものあります) 参考:Statistical Ecology Virtual Issue (Methods in Ecol

  • 統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~

    googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系のは最近増えてきましたが、統計学自体が基礎から学べるはまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =

    統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~
  • 確率と統計、数学と科学 - Willyの脳内日記

    WS大では4月の終わりに高校生を対象にした講演会があって、 S教授、K教授、それに私の3人が30~40分ずつ 統計のコースを履修している11年生、12年生(高校2、3年生)の前で話をした。 私は自分が高校生の頃を思い出して 「統計学に興味を持った理由」を話して学生の興味を惹きつつ、 「統計学でウソをつく法」という有名なからタイトルをもらって 最近の雑誌記事を元に統計でどういうトリックが使われているか、 という話をした。 それに対してK教授はもう少しアカデミックに、 確率論と統計学の違いについて説明した。彼の答えは 「統計学はギャンブラーのためのもので、 確率論はカジノの設計者のためのものだ」 という簡潔なものであった。 これはなかなか上手い説明だと思う。 すなわち、統計学とは、真実が分からない中で 利用可能な情報からどうそれを解明するかを研究する学問で、 確率論とは所与の数学構造の系とし

  • ブートストラップ法 - Wikipedia

    モデル式 2.01×がく片長-12.57≧0のときバージニアアヤメと判別 2.01×がく片長-12.57<0のときヘンショクアヤメと判別 (このモデル式では、バージニアアヤメは標50個中37個、ヘンショクアヤメは50個中36個が正しく判別されている。) 最尤推定値は漸近的には正規分布することが知られている。今回の標50個ずつのデータで出した最尤推定値(切片: −12.57、がく片長の係数: 2.01)が、どの程度正規分布に近いか、ブートストラップ法で以下のように調べることができる。 元データから n 個の標を復元抽出する。このとき n は元データの標数である。 最尤法でロジスティック回帰モデルに当てはめる。 このブートストラップ抽出を何度も(B 回)繰り返す。 こうして計算された「推定量の標分布」は、来の標分布の近似になっている。 下図は10000回のブートストラップ抽出によ

    ブートストラップ法 - Wikipedia
  • 類似度と距離 - CatTail Wiki*

    2つのデータが似ている度合いを,類似度の大きさや距離の近さといった数値にしてあらわすことで,クラスタ分析や,k-近傍法,多次元尺度構成法(MDS)をはじめとするいろいろな分析を行うことが可能となる. ここでは,よく知られている類似度や距離について述べる. 類似度という概念は,2つの集合の要素がまさにどれだけ似ているかを数量化したものであり,距離とは,要素同士の離れ具合,従って非類似度とちかい概念と考えてもよい. 参考までに数学における距離の概念の定義を示すと, 距離空間の定義 Sを1つの空でない集合とし,dをSで定義された2変数の実数値関数 d(SxS) → R が,以下の4条件(距離の公理) D1 : (非負性) 任意のx,y∈Sに対して d(x,y)≧0. D2 : (非退化性) x,y∈Sに対し d(x,y)=0  ⇔ x=y. D3 : (対称性) 任意のx,y∈Sに対して d(x

    類似度と距離 - CatTail Wiki*
  • N-gramモデルを利用したテキスト分析 ―インデックスページ―

    ↑ページ先頭 N-gramモデルを利用した事例 あるテキストから、任意のN-gram単位で共起頻度を集計し(N-gram統計を取る)、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。 「an」の後には、必ず母音(aiueo)で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。 『論語』では「子」の後に「曰」が結びつく可能性が高い。 「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める(全部で六十八種の異なる平仮名(濁点含む)が使われている) 音声認識やOCR(原稿読みとりソフト)での利用 読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭 人文学的へのN-gramモデル導入 近藤みゆ