タグ

統計学に関するmario272のブックマーク (11)

  • オンラインで無料で読める統計書22冊|Colorless Green Ideas

    はじめに 今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれたが多いが、日語で書かれたも若干ある。 入門書 まず、統計の初学者のために書かれた入門書を紹介したいと思う。 福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。 小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論

    オンラインで無料で読める統計書22冊|Colorless Green Ideas
  • 統計にダマされないための4つの原則 | ライフハッカー・ジャパン

    統計は、現代社会に欠かせないものとして定着しています。さまざまなニュース記事に登場し、暮らしのあらゆる面に影響をおよぼす政策の決定にも用いられます。ただ残念なのは、多くの人が、統計を根的なレベルで大きく読み間違えやすいことです。 統計を意味あるものにするための4つの原則を紹介します。 1.「99%の精度」のテロリスト判別装置:基準率の錯誤 「基準率錯誤」と呼ばれる統計の読み間違いの例を挙げてみましょう。 ある会社では、従業員の25%が女性で、75%が男性だとします。表面的には、この会社は男性に偏った採用をしているように見えるかもしれません。なぜなら、(少なくとも米国では)男女の人口分布はほぼ同じだからです。ですが、この見方は応募者の内訳を考慮していません。もし女性の応募者が全体の10%しかいなければ、採用率は男性よりも女性のほうが高いことになります。 もうひとつのよく知られた例として、「

    統計にダマされないための4つの原則 | ライフハッカー・ジャパン
  • Amazonに見る小さなビッグデータ - 小人さんの妄想

    Amazonサイト上で、1冊のランキングを追跡すれば、書店全体の売上傾向がわかる。 そんなことを数理的に詳しく調べた研究があります。 Amazonランキングの謎を解く: 確率的な順位付けが教える売上の構造 (DOJIN選書) 作者: 服部哲弥出版社/メーカー: 化学同人発売日: 2011/05/30メディア: 単行購入: 4人 クリック: 551回この商品を含むブログ (26件) を見る 著者である服部哲弥先生の解説ページはこちら。 この"ランキング"の帰結によると、Amazonは実はロングテールビジネスではない、とのことです。 一方、Wikipedia の「ロングテール」の項目には 「代表的なオンライン小売店の1つである「Amazon.com」(アマゾン社)を例に説明する。」 と記されているくらいですから、これはかなり意外な結果ではないでしょうか。>> wikipedia:ロング

    Amazonに見る小さなビッグデータ - 小人さんの妄想
  • 万能薬ではないビッグデータの“副作用”に注意せよ:日経ビジネスオンライン

    企業のビジネスを巡って日々流れるニュースの中には、今後の企業経営を一変させる大きな潮流が潜んでいる。その可能性を秘めた時事的な話題を毎月1つテーマとして取り上げ、国内有数のビジネススクールの看板教授たちに読み解いていただき、新たなビジネス潮流を導き出してもらう。 今月のテーマは、メディアなどで盛んに報じられるようになった「ビッグデータ」──。一般的な言葉として定着しつつあるビッグデータとはどのようなものなのか。企業のビジネスを大きく変える可能性があるとされるが、実際にはどのような効用があるのか。その質について、国内ビジネススクールの教壇に立つ4人の論客がリレー形式で登場し、持論を披露する。 最後の4人目として登壇するのは、慶応義塾大学大学院経営管理研究科の林高樹教授。統計学の専門家の立場から、ビッグデータの効用と限界、そして活用する側に求められるリテラシーについて語ってもらった。 (構成

    万能薬ではないビッグデータの“副作用”に注意せよ:日経ビジネスオンライン
  • 統計的消去で擬似相関を見抜こう! - ほくそ笑む

    今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような

    統計的消去で擬似相関を見抜こう! - ほくそ笑む
  • 第4回:「人材は見つけるのではなく“創って”いく」、ナニワのデータサイエンティスト

    3人目の今回は、大阪ガス情報通信部ビジネスアナリシスセンターの河薫所長である(写真)。河氏はエネルギー分析の専門家であり、かつ、データ分析を駆使して社内の様々な問題解決に取り組んできた実績を持つ(関連記事:ナニワのデータサイエンティストは、現場の「こうちゃうか?」を尊重)。ヒメネス氏や工藤氏とは異なるユーザー企業側の立場から、データサイエンティストについて、力強く思いを語った。 河氏:私が所長を務めるビジネスアナリシスセンターは、大阪ガスの情報通信部の中にある社内組織です。そのため、アニカさんや工藤さんが所属する組織のように、入るのにテストはありません(笑)。通常の人事異動で、担当者が配属されてきます。 現在、私を含めて9人のデータサイエンティストが在籍しています。人材は「採るのではなく育てる」が基的なスタンスですね。「(外から)見つけてくるのではなく“創って”いく」と言ってもいい

    第4回:「人材は見つけるのではなく“創って”いく」、ナニワのデータサイエンティスト
  • 第2回:入社試験では「24時間テスト」と「1時間プレゼン」でチームとして働けるかを見る

    ここからは、頂上座談会で日米3人のデータサイエンティストが語った内容を、1人ずつ詳しく紹介していこう。 1人目の今回は、米EMCグループのピボタルでデータサイエンスサービスのグローバルヘッドを務めるアニカ・ヒメネス氏である(写真)。ピボタルに在籍する前は米ヤフーで6年間、データ分析に携わった生粋のデータサイエンティストである。 ヒメネス氏:私たちがデータサイエンティストを採用する時には「24時間テスト」を行います。 事前にデータセットを渡して、「これで何ができるか、24時間でやってみてください」と伝えるのです。会う前にやってきてねと。「面白いことができるのか」を試すわけです。 (司会の記者が「窓のない部屋」でテストをするのかと冗談で質問したのに対し)別にどこかの部屋に閉じ込めて、丸1日テストをするわけではないですよ(笑)。やり方も人の自由です。 人まねではない独自のやり方でデータ分析に取

    第2回:入社試験では「24時間テスト」と「1時間プレゼン」でチームとして働けるかを見る
  • 統計学を勉強するときに知っておきたい7つのポイント

    マイクロソフト社が技術分野でもっと熱い専攻の一つとして分析/統計をあげている(Microsoft JobsBlog)。同社以外でも統計学は、今後最も有益なスキルの一つだと考えているようだ(NYT - For Today’s Graduate, Just One Word: Statistics)。しかし、データマイニングの話も一般化しつつあって学習ノウハウなども公開されているが、経験にあわない部分が多い。統計学を初めて勉強するときに知っておいた方が良い7つのポイントをあげてみた。 1. 学習機会やテキストは山のようにあるので利用する 確率・統計の日語テキストは山のようにあり、大学のコースワークを振り返っても、理文問わずにほとんどの学部で確率・統計はあったはずだ。大学院のコースワークでは英語の文献を好む傾向があるが、上級テキストでも日語のものも少なくない。また「マンガでわかる統計学」のよ

    統計学を勉強するときに知っておきたい7つのポイント
  • Rが使えるフリをするための14の知識

    米国FDAで公認され、ハーバード大学やイェール大学の授業で利用されるようになり、世間での認知度が着実に上昇している統計用プログラミング環境のRだが、ユーザーなのか、ユーザーになりたいのか、ユーザーとして振舞いたいのか分からない人が増えてきた。 スノッブなユーザーとして振舞う場合は、Rの特性を語れる必要があるので、ユーザーになるよりもRへの知識や理解が必要で、実は難易度が高い行動である。それでもあえて意識の高いRユーザーとして振舞いたい人々のために、最低限求められる事のチェック・リストを用意してみた。 1. 参考文献や参考ページを押さえておく 一番大事な事だが、参考文献や参考ページを押さえておこう。公式サイトで配布されている、「R 入門」「R 言語定義」「R のデータ取り込み/出力」は持っておくべきだ。R-TipsやRjpWikiも参考になる。 2. 演算子や制御構文をマスターする 四則演算

    Rが使えるフリをするための14の知識
  • 汝、ランダム化比較試験を知ることなく現代科学を語ることなかれ

    これを知らずに現代科学は語れない、魔法のツール、ランダム化比較試験(RCT)を説明してみたい。 この世には様々なバイアスがあるのだが、疫学データには特に入り込みやすい。酒と健康の関係を考えよう。酒量が多い人と、酒量が少ない人を比較すると、前者が後者より健康だったりする。これで酒は健康にいいと結論づけていいのであろうか? 1. 逆向きの因果など、この世にバイアスは多い もちろん駄目だ。不健康な人は酒を控えるから、酒量 → 健康と言う因果関係だけではなく、健康 → 酒量と言う因果関係も成立してしまう。これを同時性と言う。相関関係を見ることができても、因果関係を特定する事ができない。ではデータからは、因果関係は分からないのであろうか? 2. 未知の要因は理論的に分類やコントロールができない そんな事はなくて、健康状態をコントロールできれば分かる。健康で酒を飲む人と、健康で酒を飲まない人を比較し、

    汝、ランダム化比較試験を知ることなく現代科学を語ることなかれ
  • はてなブログ | 無料ブログを作成しよう

    壮瞥町からもらった宿泊券でサンパレスに泊まる日(ナス多め) 昨年の晩夏に買った無印良品の漁民パンツが領を発揮しています。山登りや藪漕ぎの可能性がある日以外、夏の全てをこれで乗り切りたい。気楽にもほどがあります。 それはそうと、7月14日(日)・15日(月/祝)の2日間、壮瞥にいました。そうべつりんごめぐりで当たっ…

    はてなブログ | 無料ブログを作成しよう
  • 1