[B! 統計学] ZAORIKUのブックマーク

科学史から最小二乗法 (回帰分析) を説明してみる - ill-identified diary

2016/12/15: にわかに閲覧者が増えたのでおかしなところを微修正概要統計学史をちょっと調べていておもしろかったのでまとめてみた技術的にはすごく初歩的な話なので, 回帰分析 (最小二乗法) の入門的な「読み物」という位置づけになりそう入門的な読み物なので, 特に最小二乗法の説明箇所は中学高校の数学の知識だけで理解できるような表現をしている, したつもり. PDF換算で 10 ページ (ただし画像が結構多い) 惑星の軌道を予測する連立方程式で惑星の軌道を予測する19世紀初頭にフランスの数学者ルジャンドル*1が最小二乗法のアイディアを最初に発表したが, ドイツの数学者ガウス*2が直後に自分こそが先に思いついたと主張し, 論争を生んだという (Abdulle & Wanner, 2002, 200 Years of Least Squares Method). しかし, いずれが先

ZAORIKU 2016/12/14

リンク

多重比較

多重比較 multiple comparison (Post-hoc test) 検定の多重性の理解は重要！１）多重比較とは３つ以上の群で、個々の群と群を検定する場合に、有意水準を上げずに（第一種過誤率を保ったまま）行う検定法。 ANOVA（分散分析）で、有意差があった場合にどの群とどの群に有意差があるか調べる場合に使用されることが多い。２）多重性とはひとつの実験系で、統計的検定を繰り返すことをいう。検定を繰り返すことにより、１回のみ検定を行った場合より第一種過誤率が大きくなってしまう。　すなわち、有意差がでる可能性が高くなってしまう。３）なぜ、多重比較が必要か分散分析のところでも述べたが、多群の比較をおこなうのに例えば２標本ｔ検定を繰り返すと有意水準があまくなってしまうのである。 A,B,Cの３群について、A-B,A-C,B-Cのすべてについて２標本ｔ検定を行

ZAORIKU 2016/06/18

リンク

コンピュータービジョンの無料チュートリアル - ベイズ推定とグラフィカルモデル：コンピュータビジョン基礎1

Learn essence of "Computer Vision: Models, Learning, and Inference"

ZAORIKU 2014/05/04

リンク

2013年秋版：データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ

前回の書籍リストは、基本的には「そこそこ統計学のことは知っていて」「機械学習とはどんなものかというイメージがあって」「Pythonの初歩ぐらいはできて」「本を見ながらで良ければRを使える」人たちを対象にしたものでした。なのですが、世の中そんな最初から基礎レベルであってもきちんとスキルが揃ってる人なんてそうそう多くないわけで*1、特に今の「ビッグデータ」「データサイエンティスト」ブームを受けて勉強を始める人のほとんどが完全な初心者でしょう。ということで、僕が実際に読んだことがあったり人から借りて読んでみたり書店で立ち読みしたりしたものの中から、そういう初心者向けのテキストを5冊に絞って紹介してみます。なお、毎回毎回しつこいですが下のリンクから書籍を購入されても、儲かるのは僕ではなくはてななのでそこのところよろしくです（笑）。データ分析の「考え方」を身に付けるために色々評判の良いものも

ZAORIKU 2014/04/05

統計学

リンク

統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ！

本稿では統計学・データマイニング・機械学習関連書籍について内容が易しいこと。数学力（特に微積・線形代数）を求められないこと入手しやすいこと。絶版や学会に入らないと入手不可などではない、値段が安いこと実務に繋げやすいこと。持ち運びしやすいこと。忙しい新社会人が通勤中や休み時間ポケットからさっと取り出し、継続して勉強出来ることを主眼に選定したお薦め書籍を紹介します。（満たせない要望も多いですが）主な対象者は、文系で数学や統計学をやってこなかった、プログラミングもわからない（Excelで四則演算やマウス操作くらいは使える）けどいつかマーケティングやデータマイニングやってやるぜ！って考えてる新卒の方です。筆者自身は経済学科出身の文系で、あまり数学力に自信がないなりに Web企業でデータマイニングをしているという人間です。ここで紹介している内容で「統計学・機械学習・データマ

ZAORIKU 2014/04/02

統計学

リンク

オンラインで無料で読める統計書22冊｜Colorless Green Ideas

はじめに今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれた本が多いが、日本語で書かれた本も若干ある。入門書まず、統計の初学者のために書かれた入門書を紹介したいと思う。福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論

ZAORIKU 2013/10/17

リンク

A borderline definite marginally mild notably numerically increasing suggestively verging on significant result

Get Big Think for Your Business. Enable transf ormation and drive culture at your company with lessons from the biggest thinkers in the world.

ZAORIKU 2013/07/12

統計学

リンク

統計屋はどこまで給料をもらうべきか - Willyの脳内日記

アカデミアでもビジネスでも統計解析のニーズは高くて、データを分析して欲しいというような依頼は結構くる。しかし、分析の対価としてどこまで給料をもらうべきなのか、というのはなかなか難しい問題だ。完全にビジネスとして外注して、博士レベルの統計屋に分析をさせると、単価は１時間で１００ドル前後のようだ。以前に、コンサルティング会社が時給７５ドルでそういった求人を出していたから、マージンなどを考えれば大体そんなものなのだろう。継続的に分析案件が発生するのであれば、常勤で統計屋を雇えばもっと安く済む。私も、大学院生の時は、医学部でデータの分析をして、生活費や給料、健康保険料を払ってもらっていた。一番厄介なのは、依頼者が案件をあくまで「共同研究」だと考えている場合である。もちろん雑誌や学会等に投稿することになれば、分析者として共著者に名前を入れてもらうことになるが、それが統計

ZAORIKU 2013/07/03

リンク

Webデータ分析＆データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。主に自分向けのまとめという意味合いが強いんですが（笑）、僕が実際に2013年6月現在webデータ分析＆データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。追記回帰分析（特に線形重回帰分析）独立性の検定（カイ二乗検定・フィッシャーの正確確率検定）主成分分析(PCA) / 因子分析クラスタリング決定木 / 回帰木サポートベクターマシン(SVM) ロジスティック回帰ランダムフォレストアソシエーション分析（バスケット分析・相関ルール抽出）計量時系列分析おわりにおまけ1：「素性ベクトル＋分類ラベル」なるデータ前処理おまけ2：グラフ理論*10 {igraph}パッケージでグラ

ZAORIKU 2013/06/12

リンク

第31回Tokyo.Rを開催しました - yokkunsの日記

第31回Tokyo.Rを開催しました。 ※ 資料がまだのものは、公開され次第追記します！前半(初心者セッション) 初心者セッション1 (所沢義男) TokyoR#31 初心者セッション from TokorosawaYoshio Rによるやさしい統計学第７章分散分析（後半の後半） (@aad34210) Tokyo r30 anova_part2 from Takashi Minoda 中の人が語る seekR.jp の裏技 (@hiratake55) 中の人が語る seekR.jp の裏側 from hiratake55 後半始めよう多変量解析〜主成分分析編〜 (@sanoche16) Tokyor31 from Hiroki Sano R言語で学ぶマーケティング分析 – 競争ポジショニング戦略 – (@yokkuns) R言語で学ぶマーケティング分析競争ポジショニング戦略 f

ZAORIKU 2013/06/04

リンク

データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ

追記2 2015年末の時点での最新リストはこちらです。追記この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版：データサイエンティストを目指すなら揃えておくべき10冊 - 六本木で働くデータサイエンティストのブログ 2013年秋版：データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。 ※以下僕も持っているものには「＊」を打ってあります*1*2*3 統計学統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メ

ZAORIKU 2013/05/08

リンク

【データ分析】『統計学が最強の学問である』西内啓 : マインドマップ的読書感想文

統計学が最強の学問である【本の概要】◆今日ご紹介するのは、先日の「未読本・気になる本」の記事でも人気だった1冊。サブタイトルとして「データ社会を生きぬくための武器と教養」とあり、なるほどそうだと感じいりました。アマゾンの内容紹介から一部引用。あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人が、その本当の魅力とパワフルさを知っているだろうか。私はぶっちゃけ「超文系人間」ですが、本書に目を通しておいて良かったと思っております。いつも応援ありがとうございます！【ポイント】■1.統計的にあみだくじは端が当たりにくい友人たちのクセなのか、人間心理の傾向なのか、両端の縦棒を先に選ばれたことはほ

ZAORIKU 2013/01/28

リンク

実質的な意義と統計学上の有意性の乖離

問：相関係数が 0.8 と大きいのに，無相関検定を行うと「有意ではない」という結果になりました。どうしたらいいのですか。 2 群の平均値の差の検定をしました。平均値の差が小さいのに，検定では「有意な差である」という結果になりました。どうしたらいいのですか。検定を行う場合，ケース数が大きければどのようなわずかの差であっても帰無仮説が棄却されることがあります。逆に，ケース数が小さい場合にはどんなに差があっても帰無仮説は採択されてしまうことがあります。例えば，相関係数の検定（母相関係数=0）を考えてみましょう。帰無仮説 H0:「母相関係数ρ＝0」相関関係はない。対立仮説 H1:「母相関係数ρ≠0」。両側検定を行う。検定に用いられる式は，相関係数を r ，ケース数を n としたとき，以下のようになります。この式を見れば明らかなように，ケース数が大きいほど，また，標本相関係数が大き

ZAORIKU 2012/11/11

統計学

リンク

第５回　正規分布の特徴

正規分布の特徴を具体的に考えてみましょう．20～24歳の男性の身長は人間生活工学研究センターの調査(1992-1994)によると，平均（μ）170.5cm，標準偏差（σ）5.9cmでした．身長の分布が正規分布に従うとしますと，このことから２σ以上平均より背の高い人，すなわち182.3cm以上の人は全体の2.2％になります．平均から標準偏差以内，すなわち164.6～176.4cmに全体の68％が属します．全体の95％は158.9～182.1cmに属します．１．正規分布正規分布は自然界で起こる現象の多くがその分布に当てはまること，特に平均値に関する分布が当てはまることから，統計学では最も重要な分布となっています．この結果から，どのような母集団であっても，標本平均の分布については以下のことがいえそうです．１）　標本平均の分布の平均は母集団の平均とほぼ同じになることが多い．２）　標本平均

ZAORIKU 2012/10/04

リンク

生態学データ解析 - FrontPage

生態学で使われるデータ解析・統計モデリングをあつかうサイトです．サイト管理者: 久保拓弥内容: 統計学授業, R 関連, GLM 関連, GLMM 関連, ベイズ統計 & MCMC, よくある質問などなど全ペイジ一覧統計学授業など統計学授業: 久保の北大での授業 (cf. ELMS) 統計学授業の教科書: 「データ解析のための統計モデリング入門」集中講義・セミナーなどはこちら配信版: 配信版・統計モデリング入門よくある質問あれこれ生態学会大会などでの活動生態学会の自由集会など (これまでの一覧) 2018 年 3 月札幌大会: データ解析で出会う統計的問題: R の新しい作図・作表生態学会誌などに掲載された解説文一覧 (ダウンロードできるものものあります) 参考：Statistical Ecology Virtual Issue (Methods in Ecol

ZAORIKU 2012/08/23

リンク

統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ～おとうさんの解析日記～

googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています（同記事）。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系の本は最近増えてきましたが、統計学自体が基礎から学べる本はまだあまり見かけないです。そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。数量化理論数量化I類 = ダミー変数による線形回帰数量化II類 = ダミー変数による判別分析数量化III類 =

ZAORIKU 2011/07/11

統計学

リンク

確率と統計、数学と科学 - Willyの脳内日記

ＷＳ大では４月の終わりに高校生を対象にした講演会があって、Ｓ教授、Ｋ教授、それに私の３人が３０～４０分ずつ統計のコースを履修している１１年生、１２年生（高校２、３年生）の前で話をした。私は自分が高校生の頃を思い出して「統計学に興味を持った理由」を話して学生の興味を惹きつつ、「統計学でウソをつく法」という有名な本からタイトルをもらって最近の雑誌記事を元に統計でどういうトリックが使われているか、という話をした。それに対してＫ教授はもう少しアカデミックに、確率論と統計学の違いについて説明した。彼の答えは「統計学はギャンブラーのためのもので、確率論はカジノの設計者のためのものだ」という簡潔なものであった。これはなかなか上手い説明だと思う。すなわち、統計学とは、真実が分からない中で利用可能な情報からどうそれを解明するかを研究する学問で、確率論とは所与の数学構造の系とし

ZAORIKU 2011/05/20

リンク

ブートストラップ法 - Wikipedia

モデル式 2.01×がく片長-12.57≧0のときバージニアアヤメと判別 2.01×がく片長-12.57＜0のときヘンショクアヤメと判別（このモデル式では、バージニアアヤメは標本50個中37個、ヘンショクアヤメは50個中36個が正しく判別されている。）最尤推定値は漸近的には正規分布することが知られている。今回の標本50個ずつのデータで出した最尤推定値（切片: −12.57、がく片長の係数: 2.01）が、どの程度正規分布に近いか、ブートストラップ法で以下のように調べることができる。元データから n 個の標本を復元抽出する。このとき n は元データの標本数である。最尤法でロジスティック回帰モデルに当てはめる。このブートストラップ抽出を何度も（B 回）繰り返す。こうして計算された「推定量の標本分布」は、本来の標本分布の近似になっている。下図は10000回のブートストラップ抽出によ

ZAORIKU 2010/04/11

リンク

類似度と距離 - CatTail Wiki*

２つのデータが似ている度合いを，類似度の大きさや距離の近さといった数値にしてあらわすことで，クラスタ分析や，k-近傍法，多次元尺度構成法(MDS)をはじめとするいろいろな分析を行うことが可能となる．ここでは，よく知られている類似度や距離について述べる．類似度という概念は，２つの集合の要素がまさにどれだけ似ているかを数量化したものであり，距離とは，要素同士の離れ具合，従って非類似度とちかい概念と考えてもよい．参考までに数学における距離の概念の定義を示すと，距離空間の定義 Sを１つの空でない集合とし，dをSで定義された2変数の実数値関数 d(SxS)　→　R が，以下の４条件（距離の公理） D1 ：（非負性）　任意のx,y∈Sに対して d(x,y)≧0． D2 ：（非退化性）　x,y∈Sに対し d(x,y)=0 　⇔　x=y． D3 ：（対称性）　任意のx,y∈Sに対して d(x

ZAORIKU 2010/01/08

リンク

N-gramモデルを利用したテキスト分析　―インデックスページ―

↑ページ先頭 N-gramモデルを利用した事例あるテキストから、任意のN-gram単位で共起頻度を集計し（N-gram統計を取る）、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。「an」の後には、必ず母音（aiueo）で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。『論語』では「子」の後に「曰」が結びつく可能性が高い。「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める（全部で六十八種の異なる平仮名（濁点含む）が使われている）音声認識やOCR（原稿読みとりソフト）での利用読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭人文学的へのN-gramモデル導入近藤みゆ

ZAORIKU 2009/12/15

リンク

はてなブックマーク

タグ

関連タグで絞り込む (28)

統計学に関するZAORIKUのブックマーク (22)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス