タグ

統計に関するwate_wateのブックマーク (67)

  • ベイズ統計学を勉強する参考書のフロー - Qiita

    慶應義塾大学・株式会社Nospareの菅澤です. 今回はベイズ統計学を勉強するための参考書の順番 (私見) について紹介していきます. 3年ほど前に『日語で学べるベイズ統計学の教科書10冊』を紹介しましたが,今回は「どのような順番でどの参考書を読んでいくと比較的スムーズに勉強が進められるのか」に焦点を当て,比較的最近の書籍や英語の書籍まで含めて紹介していきます. まずは全体的なフローのイメージを提示しておきます. 今回の記事では,「ベイズ統計学を勉強すること」のスタートとゴールを以下のように定めます. (スタート) 統計学の基礎的な内容 (統計検定2級程度の内容) は身についている (ゴール) ベイズモデリングに関する最新の論文がある程度理解して読め,自力でモデルを組んだり実装することができる また,このゴールへの道のりとして,大きく2通りのルートを想定します. (ルートA: フルスクラ

    ベイズ統計学を勉強する参考書のフロー - Qiita
  • アンケートデータを分析するときによく使われる分析手法トップ5 - Qiita

    アンケートをしてみたものの、5段階(または10段階)評価の回答の平均をとって終わってしまっている。あるいは、自由記述の回答を読んで、一喜一憂して終わってしまってしまいビジネスの改善には役立てられていない、といったことがあるかもしれません。 しかし、実はアンケートデータは、様々な分析手法を利用することで、ビジネスやサービスの改善のための具体的なアクションにつながるヒントを得ることができます。 そこで、こちらの記事ではアンケートデータを分析する上で欠かせない、5つの分析手法を簡単に紹介させていただきます。 アンケートデータの基情報 アンケートを取る時にどういった情報を回答者から学びたいのか、また、それをもとにどういうアクションに繋げたいのか設計することかと思います。 目的の例: 顧客や従業員といった回答者を深く理解することで、適切なアクションを素早くとれるようになりたい。 自分たちのプロダク

    アンケートデータを分析するときによく使われる分析手法トップ5 - Qiita
  • エレベータのブザーは鳴るか―大学生のための統計学入門|京都大学OCW

    平成30年度開講の「臨床統計家育成コース」からの公開講義です。 コースは、大学院医学研究科社会健康医学系専攻に設置された2年制の専門職学位課程です。データサイエンスや統計学に関心のある方を、医学知識の有無を問わず歓迎します。 授業の特色 データサイエンスが注目される中、高校で数学B「確率分布と統計的な推測」を履修していないことが、大学教育の大きな課題となっています。講義では京都大学医学研究科教授 田中司朗氏が「統計で容疑を晴らす」、「エレベータのブザーは鳴るか」、「地球の大きさを測る」といったストーリーを基に、平均、分散、標準偏差、回帰直線の計算を中心に、記述統計学の基を解説します。これは、数学I「データの分析」をカバーしており、数学B「確率分布と統計的な推測」の一部を含みます。

  • A/Bテストの評価をベイズ統計でやってみない? - tdualのブログ

    遊びでA/Bテストの評価をベイズ統計でやってみたら、思いのほか面白かったので記事に残します。 用語の定義 コンバージョン コンバージョン率 A/Bテスト コンバージョンの確率分布 なぜベイズ統計を使うのか 割合の問題点 尤度と最尤法 尤度 最尤法 ベイズ統計 ベイズの定理 共役事前分布 ベータ分布 事後分布の導出 事後分布のグラフ ベイジアンA/Bテストの実装 コード 使用例 番っぽい使い方 カイ二乗検定と比較 最後に 用語の定義 コンバージョン コンバージョンとは「Webサイト上で起きた最終的な成果」のことです。 具体的に何を意味するかはサイトの種類によっては様々です。 例えば、ECサイトでは商品の購入で、SNSでは会員登録などです。 コンバージョン率 コンバージョン率は「成果に繋がる最初の行動に対して実際に成果に繋がった割合」のことです。 ECサイトではある商品が購入された数をその商

    A/Bテストの評価をベイズ統計でやってみない? - tdualのブログ
  • こんにちは統計学:Pythonによるχ2乗検定・t検定・U検定・分散分析・多重比較・相関係数の計算 - すがやみつる

    マンガを描くとき、シナリオを先に書く人もいるかと思います(私は、そうしています)。 また、原作付きマンガを描いている人で、シナリオをテキストファイルやワープロソフトのファイルで受け取る人もいるでしょう。 いまマンガを描く人は、ほとんどがClipStudioを使っているはずです。そのようなマンガ家なら、シナリオからネーム部分(セリフとナレーション)だけ抜き出せたら便利だと思いませんか? そこで自作シナリオのネーム部分だけを抜き出し、句読点や「!・!!・?・!?・空白」が来ると、そこで改行するプログラムを作ってみました。 元のシナリオを「input.txt」という名前で保存し、同じフォルダにこのプログラムを置いてください。Pythonのインストールがすんでいれば、あとはこのプログラムのアイコンをダブルクリックするだけで、改行されたネームだけになったファイルが「output.txt」という名前で

  • 1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ - ぴよぴよ.py

    前回の「ゲームプログラマからデータサイエンティストに転職しました」 の記事でもお話したとおり、5月からデータ解析する人になりました。 とはいえ、データ解析に関しては未経験。 少しでも不安を減らすために、4月の有給消化期間は統計学のお勉強しました。 今回はおすすめしてもらった中で読んで良かったの紹介、そして読んだの簡単なまとめを書いて行きたいと思います。 ※前提: 4月時点の自分の知識に関して 自分は大学は情報科学を専攻していたが、難しい数式は苦手 統計学は1コマ分受講していたが、単語を覚えている程度でかなりあやうい まず一番最初に読みたい 「完全独習 統計学入門」 「簡単に統計学の全体像がつかめる入門書はないか」とTwitter相談したら、こちらのを数名の方が薦めて下さった。 完全独習 統計学入門 作者: 小島寛之出版社/メーカー: ダイヤモンド社発売日: 2006/09/28メ

    1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ - ぴよぴよ.py
  • 数学カフェ 確率・統計・機械学習回 「速習 確率・統計」

    The document describes various probability distributions that can arise from combining Bernoulli random variables. It shows how a binomial distribution emerges from summing Bernoulli random variables, and how Poisson, normal, chi-squared, exponential, gamma, and inverse gamma distributions can approximate the binomial as the number of Bernoulli trials increases. Code examples in R are provided to

    数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
  • 「この春から統計を学びはじめたい!」という人のための書籍7冊(2017年4月版)|Colorless Green Ideas

    統計をあまりよく知らない人が、統計の勉強をはじめるときに役立つ書籍について。おすすめの書籍を7冊紹介。 はじめに この記事では、統計についてあまりよく知らない人が、統計を学びはじめるときに役に立つ書籍を紹介したいと思う。まず、前半では、統計のまったくの初心者が勉強するときに役立つ書籍を3冊紹介する。後半では、前半に挙げた書籍の内容を大体理解した人が、その理解を定着させるために役立つ書籍を4冊紹介する。 まったくの初心者のために まったくの初心者が、統計を勉強したいというときに一番おすすめなのが、『マンガでわかる統計学』だ。 高橋信. (2004). 『マンガでわかる統計学』 東京:オーム社. マンガだからと言って、あなどってはならない。このはかなりしっかりと組み立てられていて、統計の基礎の基礎がしっかり押さえられるようになっている。このについてのさらに詳しい紹介が「統計学の初心者が入門

    「この春から統計を学びはじめたい!」という人のための書籍7冊(2017年4月版)|Colorless Green Ideas
  • 仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ

    パートナーアライアンス部 森田です。有料会員の獲得施策や、それに関わるサービス内動線の最適化を担当しています。 記事の対象 仮説検証を通じて何かを改善をしたいと思っている人 仮説検証の際に「どれくらいのデータを集めたら良いか」分からない人 はじめに 仮説検証とは「仮説を立て、それを証明するためのデータを集め、真偽を確かめること」です。今回は仮説検証を行う際の手順と、その検証に必要なサンプルサイズの考え方を説明します。サンプルサイズの話のみ関心があるかたは、前半を飛ばし「サンプルサイズの決め方」を読んでください。 目次 記事の対象 はじめに 目次 仮説検証のつくりかた 1. 仮説をたてる 2. 施策/KPIを考える 3. 仮説検証後のアクションを決める 4. 対象を決める 5. サンプルサイズを計算する サンプルサイズの決め方 答えを先に サンプルサイズを決める二つの要素 「二つの平均値」と

  • Pythonで統計学を学ぶメリットは?勉強の手順も解説

    Pythonで統計学を勉強するメリット 統計学を学ぶにあたって、Pythonを利用するメリットを確認しておきましょう。 近年の統計業務は、Pythonを使ったアプリケーションで行うケースが増えており、Web上のノウハウや書籍が充実しています。これらを活用することで、統計学の知識が乏しい状態でも、Pythonを切り口として学習を進めやすくなっています。 煩雑な計算を省略できる Pythonは科学計算処理に必要なライブラリが充実しています。Pythonのライブラリには、統計で用いられる専門的な計算式が内包されており、基礎的な考え方さえ理解していれば、具体的な計算式を知らずとも実践的な統計を実行可能です。もちろん読書や座学でも学習は可能ですが、Pythonを利用することで「煩雑な計算の理解」に時間を取られずにすむため「統計を使ってできること」をダイレクトに理解し易くなるでしょう。 データが簡単に

    Pythonで統計学を学ぶメリットは?勉強の手順も解説
  • 実務で使う統計手法は、5つ。すごい、そんなシンプル?

    このセミナー、冒頭の渋谷 直正さん(日航空 旅客販売統括部Web販売部 1to1マーケティンググループ アシスタントマネジャー)のお話がとても参考になりました。 まず、渋谷さんはご存知のように、2014年に「データサイエンティスト・オブ・ザ・イヤー」を受賞され、ビジネス・サイドにおける、データサイエンスのリーダー的存在です。 その渋谷さんの「実務で使う分析手法は5つで十分、マーケターこそデータサイエンティスト候補」という講演は、多くの示唆に富んだものでした。 まず、みなさんが気にしている5つの手法とは、 クロス集計 ロジスティック回帰 決定木 アソシエーション分析 非階層的クラスター分析(k-meansなど) の5つです。統計の教科書にはさまざまな手法が出てきますが、マーケターが実務で使うのはこの5つ程度だと説明されるのです。でも、この説明には、私も思い当たる部分があります。東大数学

    実務で使う統計手法は、5つ。すごい、そんなシンプル?
    wate_wate
    wate_wate 2015/09/02
    後で
  • 【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita

    統計をこれから学ぼうという方にとって、非常に重要な概念ですが理解が難しいものに「標準偏差」があると思います。「平均」くらいまでは馴染みもあるし、「わかるわかるー」という感じと思いますが、突如現れる「標準偏差」 の壁。結構、この辺りで、「数学無理だー」って打ちのめされた方もいるのではないでしょうか。 先にグラフのイメージを掲載すると、下記の赤い線の長さが「標準偏差」です。なぜこの長さが標準偏差なのか、ということも解き明かしていきます。 (code is here) 記事では数学が得意でない方にもわかるように1から標準偏差とはなにか、を説明してみようという記事です。 数式はわかるけど、イマイチ「標準偏差」の意味わからんという方にも直感的な理解がしてもらえるような説明もしていきますので、ぜひご覧ください。 (※ この記事では標準偏差の分母に $n$を使用しています。$n-1$を使用するケースも

    【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita
  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

  • ダメな統計学:目次|Colorless Green Ideas

    2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。 はじめに データ分析入門 検定力と検定力の足りない統計 擬似反復:データを賢く選べ p値と基準率の誤り 有意であるかないかの違いが有意差でない場合 停止規則と

    ダメな統計学:目次|Colorless Green Ideas
  • データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ

    追記(2017年7月) こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。 「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、 みどりぼん程度の統計学の知識 はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書ける というのが全員の最大公約数=下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト()募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。 統計学の知識は「みどりぼん以上」 データ解析のための統計モデリング入門――一般化線形モデル・階層

    データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ
  • 言語処理100本ノック 2015

    言語処理100ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています

  • ベイズ推定の概要 超入門

    自殺の時空間疫学 http://ikiru.ncnp.go.jp/ikiru-hp/genjo/toukei/index.html 少研究数のメタ分析 Noma, H. Statist. Med. 2011, 30 3304–3312 K=10以下での信頼区間を向上させる Topics はじめに 推測統計の基 最尤推定とベイズ推定 MCMCによるベイズ推定

    ベイズ推定の概要 超入門
  • 『ダメな統計学』冊子PDFの公開|Colorless Green Ideas

    『ダメな統計学』表紙 現在の科学研究において統計が誤用されていることが非常に多く、そのために科学研究の信頼性が揺らいでいることを記した『ダメな統計学』の冊子PDFを公開する。これは、アレックス・ラインハート氏が書いたStatistics Done Wrongの全訳である。理解を深めるために、訳注を比較的豊富に加えた。 2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』の冊子PDFに比べると、大幅に加筆されている。ページ数で言うと2倍以上になっている。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 『ダメな統計学

    『ダメな統計学』冊子PDFの公開|Colorless Green Ideas
  • ゼロからはじめた統計のお勉強の軌跡(おすすめテキスト編) - Qiita

    こんにちわ、昨日今日のデータエンジニア ひろぽん(hiroponius)です。 データ分析の部署でお仕事するようになって1年、 それまでのWeb(しかもフロント)系とはぜんぜん異なるノウハウが要求される中、 「このままでは円滑な業務遂行に差し支えが、統計の勉強せんと!」 「Rとかちゃんと使えるように!」 「ていうか、データともっと深い感じになりたい!」 ということで、まさに今年2014年がんばった軌跡、主に参考にしたについて。 たぶん、以下のような状況でなおかつ統計学勉強したいなーと思ってる人に、 ちょっと役に立つ内容になってるはず、です。 (学習するにあたってのマイルストーンは統計検定2級合格レベルです。) いわゆる文系、ちゃんとした数学教育は高校まで 中学校課程の数学までは理解できる/具体的な数式で解ける 微分積分は「見たことあるし解いてたはずなんだけど忘れた...」 Σ... がん

    ゼロからはじめた統計のお勉強の軌跡(おすすめテキスト編) - Qiita
  • 1万件以上のイベントをサポートしてきて学んだ教訓 | Doorkeeper

    Paul McMahon Doorkeeperを使って開催されたイベントは、1万件を超えています。 この経験から、どのようなイベントが成功しそうか、というデータが集まりました。ここで、私たちのプラットフォーム上で主催されたイベントの数々から学んだことを、見てみましょう。 イベントの成功のためには、様々な要素を検証する必要がありますが、Doorkeeperのデータによると、下記のとおり、と、胸を張ってお答えできるのです。 どうやって、イベント参加申込者を増やすのか? イベント参加申し込みをした人を、どうやって実際に来場させるのか? こちらを念頭に置いて、下記の私たちの学んだ教訓について、見てみましょう。 イベントについて、詳しいお知らせをすることで、参加登録者を増やしましょう イベントに参加してくれそうな人には、イベントの詳細をお知らせして、申し込みにつなげましょう。 イベントの申し込み率と

    1万件以上のイベントをサポートしてきて学んだ教訓 | Doorkeeper