[B! 統計] zmsgnkのブックマーク

zmsgnk id:zmsgnk

統計に関するzmsgnkのブックマーク (8)

統計的因果推論のためのPythonライブラリDoWhyについて解説：なにができて、なにに注意すべきか - Unboundedly
機械学習など主に予測を目的とした統計手法に強いイメージのPythonでしたが、統計的因果推論を行うためのライブラリ、“DoWhy”がついにリリースされました。 DoWhy | Making causal inference easy — DoWhy | Making Causal Inference Easy documentation これまで因果推論があまり浸透してこなかった*1データサイエンス界に新しい風が吹くのではと期待が高まります。一方でこのパッケージが何を可能にし、逆に何ができないのかを理解しなければ、雑なデータ分析が増えて逆に有害なのではと思い、今回ブログを書くことにしました。先に言っておくと、私自身はPythonをメインに使っているわけではありません（使ったことはあるので一応コードを読んで何が起こっているかくらいはわかります）。したがって本記事の目的は、DoWhyライブ
zmsgnk 2018/08/22
統計

分析

機械学習
リンク
実践統計モデリング入門【1. 概要・目次】 - ほくそ笑む
【宣伝】2016/09/14 このページに来た方へ。あなたが求めている本はこれです。 StanとRでベイズ統計モデリング (Wonderful R) 作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (10件) を見るまずこれを予約してから下記を読むといいです。【宣伝終】はじめに統計モデリングは今後ますます重要になってくる技術です。現在、Web 上には統計モデリングに関する様々な優良記事があります。それらの記事は、完成したモデルをスマートに提示しているものが多いようです。しかし、実際の統計モデリングの現場は決してスマートなものではなく、様々な泥臭い試行錯誤を行いながら地道にモデルを構築していきます。この一連の記事では、最終的なモデルの完成形をいきなり提示するのではなく、モデル構築の手順をスッテプバイス
zmsgnk 2015/05/12
statistics

モデリング

統計
リンク
マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む
対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。以前、Student の t 検定についての記事を書きました。小標本問題と t検定 - ほくそ笑むしかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況にも対応できるように、Welch の t 検定を使うのがセオリーとなっています。ただし、これら 2つの検定は分布の正規性を仮定しているため、正規性が仮定できない状況では、Mann-Whitney の U検定というものが広く使われています。 Mann-Whitney の U検定は、正規性を仮定しないノンパラメトリック検定として有名ですが、不等分散の状況でうまく検定できないという問題があることはあまり知られていません。今日は、これらの問題をすべて解決した、正規性も等分散性も仮定しない最強の検定、Brunner-
zmsgnk 2015/02/17
統計

R

statistics
リンク
クリック率やコンバージョン率の信頼区間を求めたい！ (1)
わけあってクリック率・コンバージョン率の信頼区間を算出したくなったのだけど、そのやり方を調べてみたら結構ややこしかったので、調べた結果をメモに残しておきます。はじめにクリック率 (Click-through rate, CTR) やらコンバージョン率 (Conversion rate, CVR) を扱う仕事をしていると、少なくとも一度ぐらいはそれらの信頼区間を求めて (区間推定して) みたくなるものかと思います。それというのも、例えば「100 回のインプレッションのうち、1 回のクリックが得られた」という標本 (サンプル) があったとして、これから CTR を点推定すると 1% になるものの、これは「サンプルサイズを増やしたときにも同様に 1% になるのか？」と言ったらそんなことは言えないわけで、ならば「どれくらいの信頼水準のときにどれくらいの範囲に真の CTR が存在しうるのか？」
zmsgnk 2015/01/07
統計

statistics

*あとで読む
リンク
ダメな統計学：目次｜Colorless Green Ideas
2017年1月20日追記：『ダメな統計学――悲惨なほど完全なる手引書』という本が出版されることになった。この本は、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。はじめにデータ分析入門検定力と検定力の足りない統計擬似反復：データを賢く選べ p値と基準率の誤り有意であるかないかの違いが有意差でない場合停止規則と
zmsgnk 2014/12/17
統計

*あとで読む
リンク
H2OのRパッケージ{h2o}でお手軽にDeep Learningを実践してみる(1)：まずは決定境界を描く - 渋谷駅前で働くデータサイエンティストのブログ
我らが自称ゆるふわ*1ガチ勢代表@motivic_氏がこんな記事をupしてました。ということで、こんなに簡単にDeep LearningをR上で試せるんだったらついでに僕もやってみようと思ったのでした。ただし同じirisでやるのも芸がないので*2、そこはちょっと変えてみましたよーということで。そうそう、Deep Learningの原理については@0kayuさんのまとめがめちゃくちゃ参考になると思うので、是非是非ご参照ください。実装ディープラーニング今回はまだ初歩の初歩しか触りませんが、それでもチューニングのところなどにこのスライドにも出てくるような様々な原理的側面がかかわってきます。そもそもH2Oって何だっけ 0xdata - H2O h2o/R at master · 0xdata/h2o · GitHub 元々H2Oはin-memoryプラットフォームとしてHadoop上や最
zmsgnk 2014/10/24
機械学習

deep learning

統計
リンク
「カイゼンしたらコンバージョン率が○○%→△△%にup!」は分母を無視したら成り立たないかもしれない - 渋谷駅前で働くデータサイエンティストのブログ
大体どこの会社でも、KPIというと「△△数（実測数）」「○○率」のような数字が多いのではないかと思います。そのようなKPIを特定のコンバージョン（課金・契約・定着…）と関連づけて、例えばプロモーション・UI改修・導線変更などの改善施策の効果を検証する、というのはWebデータ分析ではよくあるパターンでしょう。例えば、ある課金を伴うゲームイベント（これをコンバージョンとする）の導線を改善したいと思って、従来の古いイベント導線に加えて新しく別のイベント導線を追加したとしましょう。こういう時に、以下のような2×2の表を作ることはありませんか*1？課金した課金しなかった新イベント導線 5 2 旧イベント導線 150 140 で、さらにこれを以下のように解釈することはありませんか？課金した課金しなかった課金率新イベント導線 5 2 71% 旧イベント導線 150 140 52% 「新
zmsgnk 2014/09/16
データ分析

統計

web

R
リンク
機械学習を初めて勉強する人におすすめの入門書 - old school magic
概要私が機械学習の勉強を始めた頃、何から手を付ければ良いのかよく分からず、とても悩んだ覚えがあります。同じような悩みを抱えている方の参考になればと思い、自分が勉強していった方法を記事にしたいと思います。目標としては、機械学習全般について、コンパクトなイメージを持てるようになることです。そのためにも、簡単な本から始めて、少しずつ難しい本に挑戦して行きましょう。入門書何はともあれ、まずは機械学習のイメージを掴むことが大切です。最初の一冊には、フリーソフトでつくる音声認識システムがおすすめします。フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで作者: 荒木雅弘出版社/メーカー: 森北出版発売日: 2007/10/17メディア: 単行本（ソフトカバー）購入: 45人クリック: 519回この商品を含むブログ (38件) を見るレビュー :
zmsgnk 2014/08/17
機械学習

統計

書籍

勉強
リンク
1