[B! 統計学] Glnのブックマーク

データマイニングが有用な時 - himaginary’s diary

データマイニングは、最も当てはまりの良い回帰式を恣意的に拾い上げる慣行につながるという点で経済学では評判が悪いが、正しく使えば有用、とオックスフォード大の2人の研究者（Jennifer L. Castle、David F. Hendry）がこちらのvoxeu記事に書いている（H/T Economist's View）*1。記事ではまず、最も単純なデータマイニング手法として、有意性の高い順に説明変数を一つずつ追加していく、という手法を挙げている。そうした1-step forward search algorithmsと呼ばれる手法は、非有意になった変数の除去と組み合わせたり（＝段階的回帰［stepwise regression］；別名unwise regression)、推計された係数の大きさに制約を掛けたり（＝Lasso）、といったバリエーションがあるが、経済学ではまず上手く行かない、と

Gln 2014/08/18

リンク

今月下旬に『手を動かしながら学ぶ　ビジネスに活かすデータマイニング』（技術評論社）という本を出します - 渋谷駅前で働くデータサイエンティストのブログ

本日、出版元の技術評論社(gihyo)様の公式サイトでオープンになりました。手を動かしながら学ぶビジネスに活かすデータマイニング：書籍案内｜技術評論社そして書影はまだ反映されていないようですが、Amazonでも予約受付が始まった模様です*1。手を動かしながら学ぶビジネスに活かすデータマイニング作者: 尾崎隆出版社/メーカー: 技術評論社発売日: 2014/08/22メディア: 単行本（ソフトカバー）この商品を含むブログ (3件) を見るということで、僕が生まれて初めて執筆した書籍が恥ずかしながら8月22日（予定）に発売されることになりました。詳しくはgihyo様の公式サイトをご覧いただきたいのですが、このブログで唯一はてブ1000超えを達成したエントリ（Webデータ分析＆データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くData Scientistのブ

Gln 2014/08/10

リンク

Points of significanceコラム 2：統計における推定と検定(1) | 一人抄読会

Points of significance: Significance, P values and t-tests. Krzywinski M, Altman N. Nat Methods. 2013 Nov;10(11):1041-2. Points of significanceの第2回では、まず(1)母集団概念と統計的推測の時制についてまとめ、(2)母集団からこれから観測するデータを「予言」する方法について触れた後、(3)観測したデータからもとの母集団を「推測」する統計的推定を4段階で理解する。最後に(4) Nature Methods総説にある仮説棄却による統計的検定の例を見る。 1. 母集団概念と統計的推測の「時制」 (1) 母集団と統計的推定統計学では、抽象的な概念である「母集団」(無限母集団)というものを想定している。母集団は、具体的に見たり数えたりできない架空の存在であ

Gln 2014/06/28

リンク

今から統計学を学ぶならコレ！間違い無しの超良質記事まとめ10選。 | SIROKグロースハックブログ

グロースハックを本格的にしようとすると、統計学が出来ると凄く便利！今回は、この記事を見ておけば今からでも統計学を使いこなせるようになる記事をピックアップしましたので、ご覧下さい！ハンバーガーショップで学ぶ楽しい統計学本にもなっている統計学の入門には最適な決定版サイト。広く使われている統計手法について分かりやすく解説されています。オンラインで無料で読める統計書22冊 Web上で閲覧可能な統計書がまとめられている超お得な情報が詰まっている記事。 WEBで読める統計関係の良質な資料統計に関する良質な資料がまとめられている記事。統計屋による新社会人のための統計系入門書お薦め一覧統計について学べる入門書についてまとめられている記事。統計学を勉強するときに知っておきたい7つのポイント統計学を学ぶ上で、重要なポイントが整理されている記事。統計学を勉強するときに知っておきたい

Gln 2014/06/26

リンク

なぜ、統計学が最強の学問なのか？

東京大学医学部卒(生物統計学専攻)。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバードがん研究センター客員研究員を経て、現在はデータを活用する様々なプロジェクトにおいて調査、分析、システム開発および人材育成に従事する。著書に『統計学が最強の学問である』(ダイヤモンド社)、『1億人のための統計解析』(日経BP社)などがある。統計学が最強の学問である 2013年1月に発売されるや、ビジネス・経済書としては異例のベストセラーとなり、統計学ブームの端緒となった『統計学が最強の学問である』。同書の発刊1周年と30万部突破を記念して行われた、著者の西内啓氏と二人の科学者［多摩大学情報社会学研究所所長・公文俊平氏、物理学者・楽天株式会社執行役員・北川拓也氏］との対談を公開する。バックナンバー一覧 35万部を突破

Gln 2014/04/25

リンク

基礎から深層学習まで。おそらく初心者向けな「フリーソフトではじめる機械学習入門」を読んだ - EchizenBlog-Zwei

おそらく初心者向けな「フリーソフトではじめる機械学習入門」を読んだ。おそらく、というのは多少説明が足りない箇所がある本なので、そのへんが受け入れられない人もいるかなあ、と思ったので。以下、読んだ感想を書いておくので購入を検討している人は参考にどうぞ。本書の扱う範囲 "データマイニングの基礎"と"はじめてのパターン認識"の内容を合わせたような感じ。決定木やルール学習などの古典的な手法からはじまって識別関数・識別モデル・生成モデルと一通り扱っている。またグラフィカルモデルや系列ラベリングなども少々。さらに多腕バンディット問題、POMDP、深層学習など。新しめの話題も扱っている。本書の特色 1章あたり10-20ページと少なく、有名どころの手法に絞って解説してあるので最初から通して読むのが苦にならない。"はじめてのパターン認識"も良い入門書だけど、あれを通して読むのは重い、というひとはこち

Gln 2014/04/04

リンク

社会人が統計学や機械学習を学ぶなら「落下傘方式」で - 渋谷駅前で働くデータサイエンティストのブログ

今日何気なく呟いたツイートが、見ていたら結構RT&favされていた模様で。社会人が統計学とか機械学習を独習するには、いわゆる「落下傘方式」が良いと思う。必要な時にその項目だけ学んで実践する。その繰り返しで学問体系のマス目が埋まっていけば良し。あと、初めに体系立ったテキストを分からなくても良いので通読するのも良し。だいたいの地図が頭に入る。— TJO (@TJO_datasci) 2014, 3月 31 この後も色々補足で呟いたんですが、せっかくなので簡単にまとめたものを書いてみました。これから社会人で統計学や機械学習を学ぼうと考えている人の参考になれば嬉しいです。あ、これはベタな言い方をすれば「データサイエンティスト（死語）になるにはどうしたら良いか」にもつながる話なんですが、ここではもっと広く「統計学や機械学習を使う仕事をしたいと思ったらどう独習するべきか」という話にしておこうと思い

Gln 2014/04/01

リンク

統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ！

本稿では統計学・データマイニング・機械学習関連書籍について内容が易しいこと。数学力（特に微積・線形代数）を求められないこと入手しやすいこと。絶版や学会に入らないと入手不可などではない、値段が安いこと実務に繋げやすいこと。持ち運びしやすいこと。忙しい新社会人が通勤中や休み時間ポケットからさっと取り出し、継続して勉強出来ることを主眼に選定したお薦め書籍を紹介します。（満たせない要望も多いですが）主な対象者は、文系で数学や統計学をやってこなかった、プログラミングもわからない（Excelで四則演算やマウス操作くらいは使える）けどいつかマーケティングやデータマイニングやってやるぜ！って考えてる新卒の方です。筆者自身は経済学科出身の文系で、あまり数学力に自信がないなりに Web企業でデータマイニングをしているという人間です。ここで紹介している内容で「統計学・機械学習・データマ

Gln 2014/04/01

リンク

放送大学 - REDIRECT

当サイトは移転しました。10秒後に以下のURLにリダイレクトします。自動でリダイレクトされない場合、以下のリンクから移動してください。 https://info.ouj.ac.jp/~suuri/_webTohkei/ キャンパスネットワークホームページは教務情報システム(システムWAKABA)に統合されました。上記に伴い「www.campus.ouj.ac.jp」ドメイン上の各サイトは「info.ouj.ac.jp」に移行されました。 2019 The Open University of Japan

Gln 2013/12/26

リンク

『異端の統計学ベイズ』 "信念"を数字に - HONZ

本書は、「ベイズ統計」の歴史について述べた本だ。「ベイズの法則」は、迷惑メールの振り分けや商品のおすすめ表示などの様々な分野に応用されている手法である。本書はそれを、このように説明する。ベイズの法則は、一見ごく単純な定理だ。いわく、「何かに関する最初の考えを、新たに得られた客観的情報に基づいて更新すると、それまでとは異なった、より質の高い意見が得られる」この定理を支持する人からすれば、これは「経験から学ぶ」ということをエレガントに表現したものに他ならない。この法則がキリスト教長老派のベイズ牧師によって発見されたのは古く、1740年代である。ヒュームの懐疑主義が神のデザインに疑義を申し立てた時代に発見された、起きた結果から原因を推測する手法であった。以来現在に至るまで、この法則は数奇な遍歴をたどる。本書の原題は“TheTheory That Would Not Die”、200年の不

Gln 2013/10/29

リンク

3.4　標本数による限界値

限界値の表から気がつくこと ───先輩、途中で標本数がとんでますよ。20個から先は10個単位になってるし、100個から先は100個単位になっています。「全部書くと、大きな表になってしまうので、途中を省略しているんだ。半端な個数でも、その間を見ればいいわけだから、実用上は問題ないと思うよ」 ───うーん。この表を見ると、標本数5個のときの5%有意水準での限界値は、0.878ですね。つまり、これより大きい相関係数じゃないと、有意にならないんですね。「そうだね」 ───でも、前に習ったことによれば、0.878という相関係数そのものは「強い相関」ということですよ。強い相関なのに有意じゃないということはおかしいんじゃないですか。「いや、おかしくないんだ。「強い相関」という言い回しはあくまでも便宜的なものだ。標本数がある程度あるときのね。でも、標本数5というような少ない場合は、相関係数が大きくて

Gln 2013/10/22

リンク

データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ

追記2 2015年末の時点での最新リストはこちらです。追記この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版：データサイエンティストを目指すなら揃えておくべき10冊 - 六本木で働くデータサイエンティストのブログ 2013年秋版：データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。 ※以下僕も持っているものには「＊」を打ってあります*1*2*3 統計学統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メ

Gln 2013/10/11

リンク

2013年秋版：データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ

5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみました。これはあくまでも「データサイエンティストを目指す上で必要な素地が既にある程度備わっている人」向けのスタートアップとしての10冊です。実際にはこの10冊では知識が足りなくなる場面の方が多いので、その場合は適宜発展的な書籍に当たってどんどん独習していくことをお薦めします。逆に、本当にゼロからスタートする初学者の人にはこれでもかなり辛いかもなので、今回は見なかったことにしてください、ということで。。。そうそう、相変わらずですが僕個人はアフィリエイトやってないので、こちらのリンクから書籍を購入されても儲かるのは僕ではなくはてなです（笑）。（※

Gln 2013/10/10

リンク

2013年秋版：データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ

前回の書籍リストは、基本的には「そこそこ統計学のことは知っていて」「機械学習とはどんなものかというイメージがあって」「Pythonの初歩ぐらいはできて」「本を見ながらで良ければRを使える」人たちを対象にしたものでした。なのですが、世の中そんな最初から基礎レベルであってもきちんとスキルが揃ってる人なんてそうそう多くないわけで*1、特に今の「ビッグデータ」「データサイエンティスト」ブームを受けて勉強を始める人のほとんどが完全な初心者でしょう。ということで、僕が実際に読んだことがあったり人から借りて読んでみたり書店で立ち読みしたりしたものの中から、そういう初心者向けのテキストを5冊に絞って紹介してみます。なお、毎回毎回しつこいですが下のリンクから書籍を購入されても、儲かるのは僕ではなくはてななのでそこのところよろしくです（笑）。データ分析の「考え方」を身に付けるために色々評判の良いものも

Gln 2013/10/10

リンク

コラム別に読む : 統計学を知る　佐藤俊樹さんが選ぶ本 - 佐藤俊樹（東京大教授・社会学） | BOOK.asahi.com：朝日新聞社の書評サイト

■どんな場合に使えないのか統計は今、何度目かのブームにある。「最強」と謳（うた）う本が３０万部も売れ、一般の人向けのセミナーも好評のようだ。私も大学では１・２年生向けの統計を担当しているが、４、５年前から学生の数が急増して、教室と教員の手当てに毎年汗をかく。「統計」の２文字には神秘的な魔力があるらしい。よく知らない人も、いやむしろ知らない人ほど変に持ち上げたりする。 ■ブームの切実さしかし、今回のブームはもっと切実な中身があるようだ。今の私たちは、良い意味でも悪い意味でも、リスクとつきあって生きていかざるをえない。この数年で、そのことを痛いくらい経験させられた。金融や市場の開拓だけでない。例えば「原発は絶対安全だ」と信じようとしたり、「減災よりも防災、防災よりも地震予知」と、リスクをリスクとして見ないようにしてきた。それがかえって大きな被害をうむことがある、と気づかされたのだ。そう

Gln 2013/09/25

リンク

Amazon.co.jp: 統計数字を読み解くセンス―当確はなぜすぐにわかるのか?(DOJIN選書27) (DOJIN選書 27): 青木繁伸: 本

Gln 2013/09/25

リンク

（中編）今回は因果関係があるのに相関関係が見られない4つのケースについてまとめてみた：交絡・合流点の影響 - Take a Risk：林岳彦の研究メモ

どもです。林岳彦＆オメガトライブです。きみは1005%（消費税込）さて。今回は、前回の記事：今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた（前編：検定力が低い） - Take a Risk: 林岳彦の研究メモのつづきの”中編”になります。本記事では「因果関係があるのに相関関係が見られないケース」の中でも、「交絡・合流点」が関わるケースについて書いていきます*1。扱う内容の範囲としては、最初の記事：因果関係がないのに相関関係があらわれる４つのケースをまとめてみたよ（質問テンプレート付き） - Take a Risk: 林岳彦の研究メモと重複する部分がかなりありますが、今回の記事では、「仮想例のデータ生成」の段階からRでの計算を交えて説明していきたいと思います。（今回はちょっと「R実習」のような趣になるので、Rの読み書きができないと分かりにくい部分が多々あ

Gln 2013/09/19

リンク

今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた（前編：検定力が低い） - Take a Risk：林岳彦の研究メモ

どもお久しぶりです。林岳彦です。ローソンなどで売ってるいなばのタイカレーはそうめんのつけ汁として使ってもマジうまいのでオススメです。さて。今回は前々回の記事：因果関係がないのに相関関係があらわれる４つのケースをまとめてみたよ（質問テンプレート付き） - Take a Risk：林岳彦の研究メモの続編として、逆のケースとなる「因果関係があるのに相関関係が見られない」ケースについて見ていきたいと思います。あんまり長いと読むのも書くのも大変なので、今回はまずは前編として「検定力の問題」に絞って書いていきます。（＊今回は上記の前々回の記事での記述を下敷きに書いていきますので、分からないところがあったら適宜前々回の記事をご参照ください）まずは（今回の記事における）用語の定義：「相関」と「因果」今回も少しややこしい話になると思うので、まずは用語の定義をしておきたいと思います。（＊細かいと

Gln 2013/09/03

リンク

データを読み解くリテラシー – NAIST Edge

世間では統計学がブームらしい． Google のHal Varian氏は，2009年の時点で「今後 10 年間で最もセクシーな仕事は統計学者だ」と断言している．最近は日本でも統計学に関する本が売れているし，ビッグデータというキーワードにも手垢が付き始めている．私自身も研究者として，あるいは普通の市民として，様々な調査結果や統計データに接する機会が多くなっているような気がするが，その中には，首を傾げたくなるものも少なからず存在する．このボンヤリとした違和感は，統計学以前の，統計的な数字という「情報が作り出される仕組み」の取扱いに関する不適切さから来るのではないか，と最近は思いつつある．小文では，情報理論における「エルゴード性」というキーワードを軸に，この雑駁とした感じについて書いてみたい．影の薄い「エルゴード性」エルゴード性は情報理論で学ぶ基礎的な概念の一つであるが，抽象的でイメージする

Gln 2013/08/21

統計学

リンク

文系のための「多次元データの要約」（２）

分散共分散行列と相関係数行列を用いることで、様々な定量的手法が可能となる。実際の手法については「中級レベル」で解説するとして、要するに、これら行列の意味を理解することは極めて重要である。そもそも、この二つの行列は、どのようなものであったか？たしか、分散共分散行列は、各変数の分散が対角成分に並び、それ以外の成分には「共分散」が入っているような「対称行列」であった。一方、相関係数行列は、対角成分に「1」が並び、それ以外の部分には「相関係数」が入っているような行列であった。相関係数行列は、変数間の関係を一目で確認できるので、色々と重宝するのだった。ふむふむ。そのような話を確かにした。何か「問題」でもあるのか？実は、2変数の相関係数の話では気づかなかったのであるが、多変数の相関係数行列にしてみると、ある種の疑惑が生まれる。本当に、二つの変数の関係「のみ」を表しているのか？

Gln 2013/07/14

リンク

はてなブックマーク

タグ

関連タグで絞り込む (43)

統計学に関するGlnのブックマーク (67)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス