タグ

統計に関するDe_Loreanのブックマーク (20)

  • 因果関係の推定 〜Pythonによる傾向スコアマッチングとIPW〜 - 見習いデータサイエンティストの隠れ家

    中学生のときに目がよく合うと感じた人がいたら、それは自分に絶大な好意を持っているからだと思い込んでいましたよね。しかし、現実は思い出のままでした。それは、「よく目が合う」ことと「好意を持つ」ことは相関しているかもしれませんが、因果の関係とまでは言えないからです。自分の隣の人をガン見していたついでに自分を見ていただけかもしれません。まさに想いの交絡です。 正常な話に戻すと、因果を見つけることは大事です。因果がわかると次に何が起きるかを間違えることなく予測できます。まさに、預言者です。相関と因果は違うというのは頭ではわかっています。しかし、相関の壁を飛び越えていける人はごく僅かです。そこで今回は、因果関係を定量的に測定する統計的因果推定をPythonを使って行います。先人の方々が同じような内容をすでに書いていますが、傾向スコアマッチングとIPWの結果が異なっているという結論が多かったので、IP

    因果関係の推定 〜Pythonによる傾向スコアマッチングとIPW〜 - 見習いデータサイエンティストの隠れ家
    De_Lorean
    De_Lorean 2020/06/14
    Pythonによる実装
  • 聴講コース 臨床研究者のための生物統計学|京都大学OCW

    年度 2017年度 開催日 2017年5月25日 から 2019年2月21日 開講部局名 医学研究科 使用言語 日語 教員/講師名 佐藤 俊哉(医学研究科 教授) 田中 司朗(医学研究科 特定教授) 米 直裕(医学研究科 助教) 佐藤 恵子(医学部附属病院 特任准教授) 多田 春江(医学部附属病院臨床研究総合センター 特定准教授)

    De_Lorean
    De_Lorean 2020/06/14
    京大の聴講コース。ランダム化、リスク指標、生存時間分析、メタアナリシス、交絡、傾向スコア
  • 小説家になろうを機械学習でデータ分析してブックマーク10以上を獲得しやすい条件を探す - Qiita

    はじめに これを書いてる人の機械学習データ分析のスキルはpythonの拡張子が.pyであることを知ってから10日目ぐらい、「決定木」「最小二乗法」「特徴量」「RMSE」といった単語を初めて見てから7日目ぐらいといったレベルです。なのでより良い方法がある場合や、分析の途中間違っている箇所などがあればコメント欄等でどんどん指摘してくださると有り難いです。(コードが汚い、変数の命名がおかしい等はご容赦ください) 記事について 小説家になろうの作品でブックマーク10以上を獲得するために、有利なジャンルはあるのか、作品のタイトルとあらすじの文字数は重要か、文の文字数は重要か、ジャンルが重要ならどのジャンルが良いのか、文字数が重要ならどのぐらいの文字数が良いのか、といったことを調べていきます。 先に分析の結果を書くと 大ジャンル ジャンル 15禁止作品かどうか、タイトルの文字数、あらすじの文字数

    小説家になろうを機械学習でデータ分析してブックマーク10以上を獲得しやすい条件を探す - Qiita
  • べき分布のデータには注意しよう|ビッグデータ分析の留意点④ - GiXo Ltd.

    購買系のビッグデータには「べき分布」が多く注意が必要 (第2回)と(第3回)で全量分析の優位点について紹介しました。日からは、全量データに注意すべき点を説明します。日は注意点①の以下のポイントです。 注意点①:サンプルデータは中心極限定理により正規分布を仮定されることが多いが、ビッグデータをそのまま扱うと「べき分布」になることが多く、分析には注意が必要。 「中心極限定理」とは、無作為抽出した標で、かつ標数が大きければ、母集団の分布にかかわらず「標の平均値の分布」が正規分布に近づくというものです。これは誤解されることが多いのですが、母集団の分布にかかわらず正規分布に近づくのは、あくまで標の「平均値の分布」で、「標そのものの分布」は、当然のことですが「母集団の分布」に近づきます。しかし、統計分析の現場では、この中心極限定理を根拠に、サンプルデータでの統計解析をデータが正規分布であ

    べき分布のデータには注意しよう|ビッグデータ分析の留意点④ - GiXo Ltd.
  • アベノミクスの「成果」を示すデータ集 - モノシリンの3分でまとめるモノシリ話

    さて,選挙も近づいてきたということで,アベノミクスの成果を示すデータを貼り付けていこうと思う。 選挙のたびに「経済」が強調されてきたのだから,有権者にとってアベノミクスの成果を確認することは必要不可欠である。 まずはツイッターで盛大にバズったこのグラフから。アベノミクス前の2012年を100とした賃金と物価と消費の推移である。 データ元:厚労省,総務省 消費税増税と円安により,物価が6年間で6.6%も上がった(赤)。 その一方,名目賃金は2.8%しか伸びなかった(青)。 だから実質賃金は,アベノミクス前と比べて3.6%も落ちた(緑)。 そして,実質世帯消費動向指数は9.3%も落ちた(黄色)。 日銀によると消費税増税による物価上昇効果は2%だそうだ。 残りの4.6%はアベノミクスがもたらした円安が最も影響しているだろう。 (なお,2015年に原油の暴落があったおかげで円安による物価上昇の勢い

    アベノミクスの「成果」を示すデータ集 - モノシリンの3分でまとめるモノシリ話
  • 頻度主義統計、ベイズ統計、統計モデリングからみた「真値」【追記あり】 | Sunny side up!

    【追記アリ】Twitterなどでいろいろご意見いただいたので追記を載せています。 2018年も終わりそうですね。僕は毎年29日に収まらない仕事を無理やり納めている感じです。 全然おさまってないけど、年末だし、なんか記事でも書いてみようと思ったので書いてみます。 Twitterでもよく議論に上がる、頻度主義とベイズ主義の違い、それに真値について書きます。真値ってなんだろうね。 よく95%信頼区間は、真値を95%の確率で含む範囲じゃないよ、と言われます。一方で、ベイズ信頼区間は真値を含む確率と解釈していいよ!という事も言われます(これはあとで言うように常に正しいわけではない)。こういうのをどう理解したらいいでしょうか。頻度主義とベイズでは真値の考え方が違うのでしょうか。 以下で論じることは、統計学に正しい話というより、こういう考え方を採用すればこうなるよね、という話で、「正しさ」がいくつか並列

  • データ分析の不思議、シンプソンのパラドックスを統計的因果推論から考える - Unboundedly

    今回は統計学で有名な「シンプソンのパラドックス」という問題について紹介したいと思います。簡単にいえば、同じデータでも分析の仕方によって全く矛盾したように見える結果が得られるというお話です。データだけ見ると、信じがたいような直感に反する現象がおきるので頭の体操としてとても面白いです。 あまりに有名なパラドックスであるため日語でも解説がいくつか出ていますが、人によって言っていることが違っていたり、不完全であったりします。多くはシンプソンによるオリジナルの論文を読んでないことから起因するのだと思います。 例えばシンプソンのパラドックスを交絡の問題だと捉える人は多いですが、個人的に不完全だと思います(間違いではない)。このように誤解が広まった歴史的背景も含めて、詳しく書いていきたいと思います。ちなみにアニメのシンプソンズはこの問題と全く無関係です。 そもそもシンプソンのパラドックスとは? シンプ

    データ分析の不思議、シンプソンのパラドックスを統計的因果推論から考える - Unboundedly
  • データから因果関係をどう導く?:統計的因果推論の基本、「反事実モデル」をゼロから - Unboundedly

    データに基づく因果推論がどのように行われるのか、詳しく説明していきます。因果の定義、因果推論に必要な条件、RCTの意義などいろいろまとめていたら、例のごとくすごいボリュームになってしまいました。なお、記事で使われる用語は、「疫学」の因果推論で使われているものが基です。同じコンセプトでも分野によって呼び方が違うので、その点はご了承ください。 まずは「因果効果」の定義から データから因果効果を求めるための前提条件 前提①:(Mean) Exchangeability 定義 交絡との関係性 ランダム化という魔法 観察データでの因果推論を可能にするConditional Exchangeability 前提②:Consistency 前提③:Positivity 前提条件のもと、データから平均因果効果を導く Exchangeabilityが成立しているとき(例:ランダム化比較試験) Condi

    データから因果関係をどう導く?:統計的因果推論の基本、「反事実モデル」をゼロから - Unboundedly
  • 喫煙率が下がっているのに肺がんが増えているのは、なぜ?

    『喫煙率は減っているのに、肺がんが増えているのは、タバコと肺がんが関係ないからだ。』 このような理屈が、アンチ禁煙の立場の方によって、ネットや書籍によく紹介されています。 (男性の場合を例にします。) 下の図1は喫煙率と、肺がん死亡数のグラフです。 確かに、喫煙率は1966年のピーク83.7%から、2011年の33.7%まで、減る一方です。 そして、肺がん死亡数は1958年の2,919人から、2010年の50,395人と増える一方です。 このグラフを見ると先ほどの論理は合っていそうです。でも間違っているのです。 ここからは、よく読んでいただきたいと思います。 がんというものは高齢になると増えます。したがって人口が高齢化するだけでも、がんは増えます。日は現在急激に高齢化が起きており、それだけでも肺がんは増えていきます。そこで、当に肺がんが増えているのかを比較するには、年齢構成を補正した肺

    喫煙率が下がっているのに肺がんが増えているのは、なぜ?
    De_Lorean
    De_Lorean 2018/02/25
    “ どうでしょうか?見えてきましたね。 喫煙率のピークの1966年から30年後、一人あたり消費本数のピークの1977年の約20年後の1996年に肺がんの死亡率がピークとなって減少しています。 つまり、タバコ病の流行モデルは正
  • データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版) - 渋谷駅前で働くデータサイエンティストのブログ

    この記事は2年前の以下の記事のアップデートです。 前回はとりあえずデータサイエンティストというかデータ分析職一般としてのスキル要件として、「みどりぼん程度の統計学の知識」「はじパタ程度の機械学習の知識」「RかPythonでコードが組める」「SQLが書ける」という4点を挙げたのでした。 で、2年経ったらいよいよ統計分析メインのデータサイエンティスト(物:及びその他の統計分析職)vs. 機械学習システム実装メインの機械学習エンジニアというキャリアの分岐が如実になってきた上に、各方面で技術革新・普及が進んで来たので、上記の過去記事のスキル要件のままでは対応できない状況になってきたように見受けられます。 そこで、今回の記事では「データサイエンティスト」*1「機械学習エンジニア」のそれぞれについて、現段階で僕が個人的に考える「最低限のスキル要件」をさっくり書いてみようかと思います。最初にそれらを書

    データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版) - 渋谷駅前で働くデータサイエンティストのブログ
    De_Lorean
    De_Lorean 2017/06/26
    “ ということで、その辺を包括的にカバーする書籍群として「東大出版会統計学シリーズ3巻」「みどりぼん」「アヒル本」の3種を挙げておきました。動的線形モデルまでカバーするとなるとこの3種だけでは足りないかも
  • whatis0123456789.com – My site

    Welcome to WordPress. This is your first post. Edit or delete it, then start writing!

  • 第三回Japan.R入門セッション『はじめての「R」』補足 #rstatsj #JapanR - はやしのブログ Rev.3

    『はじめての「R」』やってきました! 第三回Japan.Rで入門セッションを担当させていただきました。 Japan.R当日の様子は@bob3bob3さんがまとめてくれています。 「第7回R研究集会(Rユーザー会)と第3回Japan.R #rjpusers #japanr」をトゥギャりました。 togetter.com/li/416482— Bob#3さん (@bob3bob3) 12月 2, 2012 で,入門セッションはというと, 50人くるはずが15人ぐらいしかいないw #JapanR— 林真広/HAYASHI Masahiroさん (@phosphor_m) 12月 1, 2012 こんな幕開けでしたが,最終的には30〜40人ぐらいのかたに来ていただいて無難に終えることができ,胸をなで下ろして午後の部を楽しんでいたのですが。 おや,slideshareにアップロードしたスライドに異変

    第三回Japan.R入門セッション『はじめての「R」』補足 #rstatsj #JapanR - はやしのブログ Rev.3
  • 超人気アダルトサイトが1年を総まとめにした統計レポートを公開、総視聴時間は5246世紀分に相当

    De_Lorean
    De_Lorean 2017/01/06
    面白い。。。
  • アメリカ大統領選挙の番狂わせ(前編)~ 標本調査における偏り①|統計学習の指導のために(先生向け)

    統計調査や世論調査においては、調べようとする対象(母集団)を漏れなく調査すること(全数調査・悉皆調査)はコストや時間などの制約から難しいことが少なくありません。このため、母集団の一部を標(サンプル)として選び出して調査を行い、その結果から母集団全体の傾向を推察する標調査(サンプル調査)によって行われることが一般的になっています。 このような標調査では、母集団の姿をできるだけ正確に反映する標を抽出すること、つまり標の「偏り」をできるだけ少なくすることがカギになります。今日までに何通りもの標抽出の方法が考案され、実際に統計調査や世論調査で使われていますが、ここでは標抽出の方法で明暗が分かれた1936年のアメリカ大統領選挙予測の例をご紹介します。 1936年のアメリカ大統領選挙は、「暗黒の木曜日」(1929年10月24日)に端を発した世界大恐慌、ヨーロッパ、アジアなどにおける世界的

  • 出生コーホート別の分析(世代による変化)

    戻る 前ページ 次ページ (2) 出生コーホート別の分析(世代による変化) 「コーホート」とは、ある期間に出生・婚姻等何らかの事象が発生した人を集団としてとらえたものであり、出生によるものを「出生コーホート」と呼ぶ。 従来の調査年ごとの集計では、出生年の異なる集団を対象とした調査時点での年齢別分析しかできず、時代による変化を中心に分析してきたが、出生コーホートとしてみることにより、同一世代を集団で追跡することが可能となり、世代による変化を分析することができる。

  • データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ

    追記(2017年7月) こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。 「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、 みどりぼん程度の統計学の知識 はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書ける というのが全員の最大公約数=下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト()募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。 統計学の知識は「みどりぼん以上」 データ解析のための統計モデリング入門――一般化線形モデル・階層

    データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ
  • FIFA - FIFA.com

  • オッズ比とファイ係数の話 - こにしき(言葉・日本社会・教育)

    サヨナラ検定、グッバイ統計的有意性/統計を使うつもりなら必読の論文はこれ 読書猿Classic: between / beyond readers ここで指摘されているのと同様に、外国語教育研究や社会言語学でも「統計的有意」至上主義に対する懐疑が徐々に生まれつつあり、効果サイズを元にした議論が増え始めているようです。とはいっても、まだ、ごくわずかですが。 効果サイズで、僕が個人的によく使うのは、オッズ比とファイ係数です(社会学、ことに社会調査の2次分析では質的変数を扱うことが多いので)。 で、このふたつのどちらを調べたらいいか迷うことがあると思いますが、教科書的に言えば、 どちらも必ず調べる だと思います。というのも、普通は、数値の大きさ(の解釈)は一致しますが、たまに、かなり大きなオッズ比であるにもかかわらず、ファイ係数の値が小さいことがありますから。両方チェックして、問題なければ、先行

    オッズ比とファイ係数の話 - こにしき(言葉・日本社会・教育)
  • 図(だけ)で説明する回帰分析 - 社会学者の研究メモ

    分かっているようで意外と分かっていないのが回帰分析です。回帰分析の考え方をできるだけ図だけで説明した資料を作りましたので、適宜ご参照ください。 「(ほぼ)図(だけ)で説明する回帰分析」(PDF) 主な内容は、以下のとおりです。 説明変数と撹乱項の相関の理解 予測値の信頼区間をプロットすることの重要性の理解 「変数をコントロールする」ということで曖昧に理解されている内容の理解

    図(だけ)で説明する回帰分析 - 社会学者の研究メモ
  • 政府統計の総合窓口 GL01010101

    統計データを探す すべて 分野から探す国土・気象人口・世帯労働・賃金農林水産業鉱工業商業・サービス業企業・家計・経済住宅・土地・建設エネルギー・水運輸・観光情報通信・科学技術教育文化・スポーツ・生活行財政司法・安全・環境社会保障・衛生国際その他 組織から探す 内閣官房人事院内閣府公正取引委員会警察庁消費者庁こども家庭庁総務省公害等調整委員会消防庁法務省外務省財務省国税庁文部科学省文化庁スポーツ庁厚生労働省中央労働委員会農林水産省林野庁水産庁経済産業省資源エネルギー庁特許庁中小企業庁国土交通省観光庁海上保安庁環境省防衛省 主要な統計から探す 50音から探す あ い う え お か き く け こ さ し す せ そ た ち つ て と な に ぬ ね の は ひ ふ へ ほ ま み む め も や ゆ よ ら り る れ ろ わ すべて見る 分野から探す 国土・気象人口・世帯労働・賃金農林

    政府統計の総合窓口 GL01010101
  • 1