タグ

統計学に関するGlnのブックマーク (67)

  • データマイニングが有用な時 - himaginary’s diary

    データマイニングは、最も当てはまりの良い回帰式を恣意的に拾い上げる慣行につながるという点で経済学では評判が悪いが、正しく使えば有用、とオックスフォード大の2人の研究者(Jennifer L. Castle、David F. Hendry)がこちらのvoxeu記事に書いている(H/T Economist's View)*1。 記事ではまず、最も単純なデータマイニング手法として、有意性の高い順に説明変数を一つずつ追加していく、という手法を挙げている。そうした1-step forward search algorithmsと呼ばれる手法は、非有意になった変数の除去と組み合わせたり(=段階的回帰[stepwise regression];別名unwise regression)、推計された係数の大きさに制約を掛けたり(=Lasso)、といったバリエーションがあるが、経済学ではまず上手く行かない、と

    データマイニングが有用な時 - himaginary’s diary
  • 今月下旬に『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)という本を出します - 渋谷駅前で働くデータサイエンティストのブログ

    日、出版元の技術評論社(gihyo)様の公式サイトでオープンになりました。 手を動かしながら学ぶ ビジネスに活かすデータマイニング:書籍案内|技術評論社 そして書影はまだ反映されていないようですが、Amazonでも予約受付が始まった模様です*1。 手を動かしながら学ぶ ビジネスに活かすデータマイニング 作者: 尾崎隆出版社/メーカー: 技術評論社発売日: 2014/08/22メディア: 単行(ソフトカバー)この商品を含むブログ (3件) を見る ということで、僕が生まれて初めて執筆した書籍が恥ずかしながら8月22日(予定)に発売されることになりました。詳しくはgihyo様の公式サイトをご覧いただきたいのですが、このブログで唯一はてブ1000超えを達成したエントリ(Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くData Scientistのブ

    今月下旬に『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)という本を出します - 渋谷駅前で働くデータサイエンティストのブログ
  • Points of significanceコラム 2:統計における推定と検定(1) | 一人抄読会

    Points of significance: Significance, P values and t-tests. Krzywinski M, Altman N. Nat Methods. 2013 Nov;10(11):1041-2. Points of significanceの第2回では、まず(1)母集団概念と統計的推測の時制についてまとめ、(2)母集団からこれから観測するデータを「予言」する方法について触れた後、(3)観測したデータからもとの母集団を「推測」する統計的推定を4段階で理解する。最後に(4) Nature Methods総説にある仮説棄却による統計的検定の例を見る。 1. 母集団概念と統計的推測の「時制」 (1) 母集団と統計的推定 統計学では、抽象的な概念である「母集団」(無限母集団)というものを想定している。母集団は、具体的に見たり数えたりできない架空の存在であ

    Points of significanceコラム 2:統計における推定と検定(1) | 一人抄読会
  • 今から統計学を学ぶならコレ!間違い無しの超良質記事まとめ10選。 | SIROKグロースハックブログ

    グロースハックを格的にしようとすると、統計学が出来ると凄く便利!今回は、この記事を見ておけば今からでも統計学を使いこなせるようになる記事をピックアップしましたので、ご覧下さい! ハンバーガーショップで学ぶ楽しい統計学 にもなっている統計学の入門には最適な決定版サイト。広く使われている統計手法について分かりやすく解説されています。 オンラインで無料で読める統計書22冊 Web上で閲覧可能な統計書がまとめられている超お得な情報が詰まっている記事。 WEBで読める統計関係の良質な資料 統計に関する良質な資料がまとめられている記事。 統計屋による新社会人のための統計系入門書お薦め一覧 統計について学べる入門書についてまとめられている記事。 統計学を勉強するときに知っておきたい7つのポイント 統計学を学ぶ上で、重要なポイントが整理されている記事。 統計学を勉強するときに知っておきたい

    今から統計学を学ぶならコレ!間違い無しの超良質記事まとめ10選。 | SIROKグロースハックブログ
  • なぜ、統計学が最強の学問なのか?

    東京大学医学部卒(生物統計学専攻)。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバードがん研究センター客員研究員を経て、現在はデータを活用する様々なプロジェクトにおいて調査、分析、システム開発および人材育成に従事する。著書に『統計学が最強の学問である』(ダイヤモンド社)、『1億人のための統計解析』(日経BP社)などがある。 統計学が最強の学問である 2013年1月に発売されるや、ビジネス・経済書としては異例のベストセラーとなり、統計学ブームの端緒となった『統計学が最強の学問である』。同書の発刊1周年と30万部突破を記念して行われた、著者の西内啓氏と二人の科学者[多摩大学情報社会学研究所所長・公文俊平氏、物理学者・楽天株式会社執行役員・北川拓也氏]との対談を公開する。 バックナンバー一覧 35万部を突破

  • 基礎から深層学習まで。おそらく初心者向けな「フリーソフトではじめる機械学習入門」を読んだ - EchizenBlog-Zwei

    おそらく初心者向けな「フリーソフトではじめる機械学習入門」を読んだ。 おそらく、というのは多少説明が足りない箇所があるなので、そのへんが受け入れられない人もいるかなあ、と思ったので。 以下、読んだ感想を書いておくので購入を検討している人は参考にどうぞ。 書の扱う範囲 "データマイニングの基礎"と"はじめてのパターン認識"の内容を合わせたような感じ。決定木やルール学習などの古典的な手法からはじまって識別関数・識別モデル・生成モデルと一通り扱っている。またグラフィカルモデルや系列ラベリングなども少々。さらに多腕バンディット問題、POMDP、深層学習など。新しめの話題も扱っている。 書の特色 1章あたり10-20ページと少なく、有名どころの手法に絞って解説してあるので最初から通して読むのが苦にならない。"はじめてのパターン認識"も良い入門書だけど、あれを通して読むのは重い、というひとはこち

    基礎から深層学習まで。おそらく初心者向けな「フリーソフトではじめる機械学習入門」を読んだ - EchizenBlog-Zwei
  • 社会人が統計学や機械学習を学ぶなら「落下傘方式」で - 渋谷駅前で働くデータサイエンティストのブログ

    今日何気なく呟いたツイートが、見ていたら結構RT&favされていた模様で。 社会人が統計学とか機械学習を独習するには、いわゆる「落下傘方式」が良いと思う。必要な時にその項目だけ学んで実践する。その繰り返しで学問体系のマス目が埋まっていけば良し。あと、初めに体系立ったテキストを分からなくても良いので通読するのも良し。だいたいの地図が頭に入る。— TJO (@TJO_datasci) 2014, 3月 31 この後も色々補足で呟いたんですが、せっかくなので簡単にまとめたものを書いてみました。これから社会人で統計学や機械学習を学ぼうと考えている人の参考になれば嬉しいです。 あ、これはベタな言い方をすれば「データサイエンティスト(死語)になるにはどうしたら良いか」にもつながる話なんですが、ここではもっと広く「統計学や機械学習を使う仕事をしたいと思ったらどう独習するべきか」という話にしておこうと思い

    社会人が統計学や機械学習を学ぶなら「落下傘方式」で - 渋谷駅前で働くデータサイエンティストのブログ
  • 統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!

    稿では統計学・データマイニング・機械学習関連書籍について 内容が易しいこと。数学力(特に微積・線形代数)を求められないこと 入手しやすいこと。絶版や学会に入らないと入手不可などではない、値段が安いこと 実務に繋げやすいこと。 持ち運びしやすいこと。忙しい新社会人が通勤中や休み時間ポケットからさっと取り出し、継続して勉強出来ること を主眼に選定したお薦め書籍を紹介します。 (満たせない要望も多いですが) 主な対象者は、文系で数学や統計学をやってこなかった、 プログラミングもわからない(Excelで四則演算やマウス操作くらいは使える) けどいつかマーケティングやデータマイニングやってやるぜ! って考えてる新卒の方です。 筆者自身は経済学科出身の文系で、あまり数学力に自信がないなりに Web企業でデータマイニングをしているという人間です。 ここで紹介している内容で 「統計学・機械学習・データマ

    統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!
  • 放送大学 - REDIRECT

    当サイトは移転しました。10秒後に以下のURLにリダイレクトします。 自動でリダイレクトされない場合、以下のリンクから移動してください。 https://info.ouj.ac.jp/~suuri/_webTohkei/ キャンパスネットワークホームページは教務情報システム(システムWAKABA)に統合されました。 上記に伴い「www.campus.ouj.ac.jp」ドメイン上の各サイトは「info.ouj.ac.jp」に移行されました。 2019 The Open University of Japan

  • 『異端の統計学 ベイズ』 "信念"を数字に - HONZ

    書は、「ベイズ統計」の歴史について述べただ。「ベイズの法則」は、迷惑メールの振り分けや商品のおすすめ表示などの様々な分野に応用されている手法である。書はそれを、このように説明する。 ベイズの法則は、一見ごく単純な定理だ。 いわく、「何かに関する最初の考えを、新たに得られた客観的情報に基づいて更新すると、それまでとは異なった、より質の高い意見が得られる」 この定理を支持する人からすれば、これは「経験から学ぶ」ということをエレガントに表現したものに他ならない。 この法則がキリスト教長老派のベイズ牧師によって発見されたのは古く、1740年代である。ヒュームの懐疑主義が神のデザインに疑義を申し立てた時代に発見された、起きた結果から原因を推測する手法であった。以来現在に至るまで、この法則は数奇な遍歴をたどる。書の原題は“TheTheory That Would Not Die”、200年の不

    『異端の統計学 ベイズ』 "信念"を数字に - HONZ
  • 3.4 標本数による限界値

    限界値の表から気がつくこと ───先輩、途中で標数がとんでますよ。20個から先は10個単位になってるし、100個から先は100個単位になっています。 「全部書くと、大きな表になってしまうので、途中を省略しているんだ。半端な個数でも、その間を見ればいいわけだから、実用上は問題ないと思うよ」 ───うーん。この表を見ると、標数5個のときの5%有意水準での限界値は、0.878ですね。つまり、これより大きい相関係数じゃないと、有意にならないんですね。 「そうだね」 ───でも、前に習ったことによれば、0.878という相関係数そのものは「強い相関」ということですよ。強い相関なのに有意じゃないということはおかしいんじゃないですか。 「いや、おかしくないんだ。「強い相関」という言い回しはあくまでも便宜的なものだ。標数がある程度あるときのね。でも、標数5というような少ない場合は、相関係数が大きくて

  • データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ

    追記2 2015年末の時点での最新リストはこちらです。 追記 この記事の5カ月後にもう少し更新した内容の「お薦めリスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 六木で働くデータサイエンティストのブログ 2013年秋版:データ分析初心者にお薦めする「基礎を当にゼロから学ぶ」ためのテキスト5冊 - 六木で働くデータサイエンティストのブログ 今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。 ※以下僕も持っているものには「*」を打ってあります*1*2*3 統計学 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メ

    データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ
  • 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ

    5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみました。 これはあくまでも「データサイエンティストを目指す上で必要な素地が既にある程度備わっている人」向けのスタートアップとしての10冊です。実際にはこの10冊では知識が足りなくなる場面の方が多いので、その場合は適宜発展的な書籍に当たってどんどん独習していくことをお薦めします。逆に、当にゼロからスタートする初学者の人にはこれでもかなり辛いかもなので、今回は見なかったことにしてください、ということで。。。 そうそう、相変わらずですが僕個人はアフィリエイトやってないので、こちらのリンクから書籍を購入されても儲かるのは僕ではなくはてなです(笑)。 (※

    2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ
  • 2013年秋版:データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ

    前回の書籍リストは、基的には「そこそこ統計学のことは知っていて」「機械学習とはどんなものかというイメージがあって」「Pythonの初歩ぐらいはできて」「を見ながらで良ければRを使える」人たちを対象にしたものでした。 なのですが、世の中そんな最初から基礎レベルであってもきちんとスキルが揃ってる人なんてそうそう多くないわけで*1、特に今の「ビッグデータ」「データサイエンティスト」ブームを受けて勉強を始める人のほとんどが完全な初心者でしょう。 ということで、僕が実際に読んだことがあったり人から借りて読んでみたり書店で立ち読みしたりしたものの中から、そういう初心者向けのテキストを5冊に絞って紹介してみます。なお、毎回毎回しつこいですが下のリンクから書籍を購入されても、儲かるのは僕ではなくはてななのでそこのところよろしくです(笑)。 データ分析の「考え方」を身に付けるために 色々評判の良いものも

    2013年秋版:データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ
  • コラム別に読む : 統計学を知る 佐藤俊樹さんが選ぶ本 - 佐藤俊樹(東京大教授・社会学) | BOOK.asahi.com:朝日新聞社の書評サイト

    ■どんな場合に使えないのか 統計は今、何度目かのブームにある。「最強」と謳(うた)うが30万部も売れ、一般の人向けのセミナーも好評のようだ。私も大学では1・2年生向けの統計を担当しているが、4、5年前から学生の数が急増して、教室と教員の手当てに毎年汗をかく。 「統計」の2文字には神秘的な魔力があるらしい。よく知らない人も、いやむしろ知らない人ほど変に持ち上げたりする。 ■ブームの切実さ しかし、今回のブームはもっと切実な中身があるようだ。今の私たちは、良い意味でも悪い意味でも、リスクとつきあって生きていかざるをえない。この数年で、そのことを痛いくらい経験させられた。 金融や市場の開拓だけでない。例えば「原発は絶対安全だ」と信じようとしたり、「減災よりも防災、防災よりも地震予知」と、リスクをリスクとして見ないようにしてきた。それがかえって大きな被害をうむことがある、と気づかされたのだ。そう

    コラム別に読む : 統計学を知る 佐藤俊樹さんが選ぶ本 - 佐藤俊樹(東京大教授・社会学) | BOOK.asahi.com:朝日新聞社の書評サイト
  • Amazon.co.jp: 統計数字を読み解くセンス―当確はなぜすぐにわかるのか?(DOJIN選書27) (DOJIN選書 27): 青木繁伸: 本

    Amazon.co.jp: 統計数字を読み解くセンス―当確はなぜすぐにわかるのか?(DOJIN選書27) (DOJIN選書 27): 青木繁伸: 本
  • (中編)今回は因果関係があるのに相関関係が見られない4つのケースについてまとめてみた:交絡・合流点の影響 - Take a Risk:林岳彦の研究メモ

    どもです。林岳彦&オメガトライブです。きみは1005%(消費税込) さて。 今回は、前回の記事: 今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk: 林岳彦の研究メモ のつづきの”中編”になります。記事では「因果関係があるのに相関関係が見られないケース」の中でも、「交絡・合流点」が関わるケースについて書いていきます*1。 扱う内容の範囲としては、最初の記事: 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk: 林岳彦の研究メモ と重複する部分がかなりありますが、今回の記事では、「仮想例のデータ生成」の段階からRでの計算を交えて説明していきたいと思います。(今回はちょっと「R実習」のような趣になるので、Rの読み書きができないと分かりにくい部分が多々あ

    (中編)今回は因果関係があるのに相関関係が見られない4つのケースについてまとめてみた:交絡・合流点の影響 - Take a Risk:林岳彦の研究メモ
  • 今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk:林岳彦の研究メモ

    どもお久しぶりです。林岳彦です。ローソンなどで売ってるいなばのタイカレーはそうめんのつけ汁として使ってもマジうまいのでオススメです。 さて。 今回は前々回の記事: 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ の続編として、逆のケースとなる「因果関係があるのに相関関係が見られない」ケースについて見ていきたいと思います。あんまり長いと読むのも書くのも大変なので、今回はまずは前編として「検定力の問題」に絞って書いていきます。 (*今回は上記の前々回の記事での記述を下敷きに書いていきますので、分からないところがあったら適宜前々回の記事をご参照ください) まずは(今回の記事における)用語の定義:「相関」と「因果」 今回も少しややこしい話になると思うので、まずは用語の定義をしておきたいと思います。(*細かいと

    今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk:林岳彦の研究メモ
  • データを読み解くリテラシー – NAIST Edge

    世間では統計学がブームらしい. Google のHal Varian氏は,2009年の時点で「今後 10 年間で最もセクシーな仕事は統計学者だ」と断言している.最近は日でも統計学に関するが売れているし,ビッグデータというキーワードにも手垢が付き始めている.私自身も研究者として,あるいは普通の市民として,様々な調査結果や統計データに接する機会が多くなっているような気がするが,その中には,首を傾げたくなるものも少なからず存在する.このボンヤリとした違和感は,統計学以前の,統計的な数字という「情報が作り出される仕組み」の取扱いに関する不適切さから来るのではないか,と最近は思いつつある.小文では,情報理論における「エルゴード性」というキーワードを軸に,この雑駁とした感じについて書いてみたい. 影の薄い「エルゴード性」 エルゴード性は情報理論で学ぶ基礎的な概念の一つであるが,抽象的でイメージする

  • 文系のための「多次元データの要約」(2)

    分散共分散行列と相関係数行列を用いることで、様々な定量的手法が可能となる。 実際の手法については「中級レベル」で解説するとして、要するに、 これら行列の意味を理解することは極めて重要である。 そもそも、この二つの行列は、どのようなものであったか? たしか、分散共分散行列は、各変数の分散が対角成分に並び、 それ以外の成分には「共分散」が入っているような「対称行列」であった。 一方、相関係数行列は、対角成分に「1」が並び、 それ以外の部分には「相関係数」が入っているような行列であった。 相関係数行列は、変数間の関係を一目で確認できるので、色々と重宝するのだった。 ふむふむ。そのような話を確かにした。何か「問題」でもあるのか? 実は、2変数の相関係数の話では気づかなかったのであるが、 多変数の相関係数行列にしてみると、ある種の疑惑が生まれる。 当に、二つの変数の関係「のみ」を表しているのか?