タグ

statisticsに関するnagatoshi0913のブックマーク (10)

  • 【統計学「p<0.05」に下げる方法】統計好きでも意外と知らない「p値ハッキング」の中身

    心理学者。キングス・カレッジ・ロンドンの精神医学・心理学・神経科学研究所の講師。2015年に科学的心理学会(アメリカ)の「期待の星(ライジンング・スター)」賞を受賞。『タイムズ』『ワシントン・ポスト』『ワイアード』などに数多く寄稿し、BBCラジオなどの出演もある。 Science Fictions あなたが知らない科学の真実 スタンフォード監獄実験はイカサマだった! 権威ある心理学研究の100件のうち、再現に成功したのはたったの39%!? 科学の信頼性を根底から揺るがす「再現性の危機」に迫る真実の書、日上陸! 科学における不正・怠慢・バイアス・誇張が起きる仕組みを多数の実例とともに解説。既存ので知ったウンチクを得意げに語る人に読ませたい、真実の書。 バックナンバー一覧 「すべての科学研究は真実である」と考えるのは、あまりに無邪気だ――。 科学の「再現性の危機」をご存じだろうか。心理学、

    【統計学「p<0.05」に下げる方法】統計好きでも意外と知らない「p値ハッキング」の中身
  • ビジネスの実務で「因果」を推測するということ - 渋谷駅前で働くデータサイエンティストのブログ

    統計的因果推論と言えばすっかり統計学分野ではお馴染みのアプローチになった感があり、また機械学習分野でも扱うテーマが複雑化するにつれて注目が高まり続けているトピックスという印象があります。 このブログでも2016年ぐらいから因果推論に関する記事をちらほら書くようになり、僕個人にとってもまた因果推論と言えば馴染み深い概念になってきたという感があります。 一方で、ビジネス実務の現場においても「因果推論」という言葉は使われないにせよ、かなりはっきりと「因果」についての知見もしくは説明可能性が求められるようになってきた、という印象が個人的にはあります。それは良くも悪くもDXブームでありとあらゆるビジネスに関わる事由がデータ化され、「相関」だけなら簡単に見つけられるようになったことで、相関だけからは見えてこない「因果」をはっきりさせたいという願望が浮かび上がってきた、ということなのかもしれません。 そ

    ビジネスの実務で「因果」を推測するということ - 渋谷駅前で働くデータサイエンティストのブログ
  • 「数字が苦手」だったメルカリのデータアナリストが教える、データ分析の第一歩 | 【レポート】Web担当者Forumミーティング 2023 秋

    「数字が苦手」だったメルカリのデータアナリストが教える、データ分析の第一歩 | 【レポート】Web担当者Forumミーティング 2023 秋
  • 統計学とは何か、そしてベイズ統計学の話 - hidekatsu-izuno 日々の記録

    細々と統計学を調べ続けているが、最近ようやく統計学というものが何なのか、おぼろげながらわかるようになってきた(なお、統計学ができるようになってきたわけではない) 統計学を知る前の自分と今の自分をくらべたとき、間違いなく違うのは統計学に対する信頼だろう。以前は、統計学は数学の一分野であり、正しい分析手法を使えば真の答えが得られるものだと思っていた。しかし、実際には統計学者ジョージ・ボックスが言ったとされる「すべての(統計)モデルは間違っている、だが中には役立つものもある)」という言葉の方が実態に近い。 統計学は基的に「不可能なことを可能にする(不良設定問題を扱う)」学問だ。例えば、1、3、5 という数字の列から何が言えるだろうか。確実なことは3つの実数値が観測された、ということだけで、それ以上のことは想像するしかない。奇数列かもしれないし、乱数から3つの値を取得した際に偶然それっぽい数字が

    統計学とは何か、そしてベイズ統計学の話 - hidekatsu-izuno 日々の記録
  • 時系列データから大量の特徴量を生成するパッケージ「tsfresh」の使い方|CO-WRITE

    こんにちは!突然ですが、皆さんは下のような二種類の時系列データを判別できるような特徴量を抜き出したいときに何を考えますか?そしてどうやって特徴量を抽出しますか? 私はパッと見て次の手法を使えば特性が取り出せると思いました。 ピークの数 → k近傍法 ノイズの大きさ → 分散統計量 時系列方向で周期成分の大きさ → Wavelet変換 しかし、当然これだけでは十分な数の特性を網羅できていないでしょうし、適切な特性を抜き出すためにパラメータチューニングを行う必要があります(例えば、Wavelet変換であれば適切な基底関数を選ぶ必要があります)。 このように時系列データの特徴量エンジニアリングは調べることが無限にあり、どの特徴量を算出するかを考えているだけで日が暮れてしまいます。また、抜き出す特徴量が決まったとしてもモノによっては計算が複雑で実装に時間がかかってしまう場合もあります。 そんなとき

    時系列データから大量の特徴量を生成するパッケージ「tsfresh」の使い方|CO-WRITE
  • マーケティングデータ分析で成果を挙げるには「統計分析(MMMなど)+A/Bテスト」のコンビネーションが有用 - 渋谷駅前で働くデータサイエンティストのブログ

    既に記事タイトルが雄弁に物語っていますが、「マーケティング分野におけるデータ分析でいかにして成果を挙げるか」というのはある意味永遠の課題であると言えると思います。誇張でも何でもなく、この地球上の全てのマーケティングに関わるデータ分析組織ではこの課題について毎日議論を戦わせていると言っても過言ではないでしょう。 より具体的に言えば、「マーケティング戦略立案のためにデータ分析を実施しても改善提案がなかなか事業側から採用してもらえない」「マーケティングデータ分析の結果を事業側としてはどこまで信頼して良いのか分からない」という悩みは、それこそ僕がデータサイエンス業界にやってきた10年以上前からそこかしこで聞かれ続けてきたものです。しかし、個人的にはここ5年くらいである程度そこを突破するためのスキームが整備されてきたという感想を持っています。 特に現在僕が働いているチームでは、ここ4年ほどに渡って「

    マーケティングデータ分析で成果を挙げるには「統計分析(MMMなど)+A/Bテスト」のコンビネーションが有用 - 渋谷駅前で働くデータサイエンティストのブログ
  • 統計検定を理解せずに使っている人のために I - J-Stage

    318 化学と生物 Vol. 51, No. 5, 2013 セミナー室 研究者のためのわかりやすい統計学-1 統計検定を理解せずに使っている人のために I 池田郁男 東北大学大学院農学研究科 319 化学と生物 Vol. 51, No. 5, 2013 1 1 320 化学と生物 Vol. 51, No. 5, 2013 2 μ σ σ 3 * 2 3 * 321 化学と生物 Vol. 51, No. 5, 2013 4 * 5 * 6 σ 4 5 6 σ * * 322 化学と生物 Vol. 51, No. 5, 2013 μ μ μ μ μ σ 7 σ σ σ σ σ σ σ σ σ σ 8 8 9 7 σ 323 化学と生物 Vol. 51, No. 5, 2013 9 10 11 * σ σ * * * * 10 11 * * * * 324 化学と生物 Vol. 51, No.

  • 今後のメディアを考えるうえで知っておきたいデータ10選 - メディアの輪郭

    日々、いろんな海外メディアの情報を追っているのですが、改めて日におけるメディア関連データで気になるものを足下から整理しようと思い、調べてみました。 1. スマートフォンの所有率 (出典:ビデオリサーチインタラクティブ | プレスリリース) 昨年の時点でガラケーの所有率をスマホが上回っていたようですが、今年はさらに差が広がっていますね。特に女子学生(85.2%)、男子学生(78.3%)のスマートフォン所有率が高いとのことです。タブレットもじわじわ増えています。 2. スマートフォン加入者数 総務省によれば、日にはインターネット利用者数が9652万人いるようです。また、IDC Japanの2013年~2017年の国内スマートフォン加入者数予測によれば、2014年には6277万人に、2015年には約7000万人がスマホを持つことになりそうです。 3. スマートフォンの利用場所とシーン ヤフー

    今後のメディアを考えるうえで知っておきたいデータ10選 - メディアの輪郭
  • https://developer.odstat.jp/info

  • PISA「盗難事件」問題ほか

    国際学力調査-文部科学省からリンクされている問題例(PDF:1,342KB リンク切れ アーカイブ)の最後に次のような「盗難事件に関する問題(PISA2000年調査及び2003年調査問題)」があります。 盗難事件 あるTVレポーターがこのグラフを示して、「1999年は1998年に比べて、盗難事件が激増しています」と言いました。 このレポーターの発言は、このグラフの説明として適切ですか。適切である、または適切でない理由を説明してください。 これは省略棒グラフを使って違いを不適切に強調したものです。グラフから数値を読み取るのは微妙ですが,それぞれ508,516だとしましょう。この違いは統計的に有意でしょうか。 盗難事件が1998年に起きる確率も1999年に起きる確率も等しいという帰無仮説を立てて,Rで検定してみましょう: > 508+516 [1] 1024 > binom.test(508,

  • 1