タグ

統計に関するninininninninのブックマーク (9)

  • データ分析のはじめの一歩を無料で学べる 総務省監修の高校教材『データサイエンス・データ解析入門』がpdfで公開 | Ledge.ai

    サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

    データ分析のはじめの一歩を無料で学べる 総務省監修の高校教材『データサイエンス・データ解析入門』がpdfで公開 | Ledge.ai
  • 国際比較に使える唯一の指標「超過死亡」で明らかになる実態 - 新型コロナウイルス情報室 - Quora

    今回取り上げるのは、フィナンシャル・タイムズからの「死者数は報告されているよりも60%高い可能性がある」というレポートです。 Global coronavirus death toll could be 60% higher than reported | Free to read ここで、論に入る前に、少し前置きです。 アウトブレイクが現在進行形で起きているときに、異なる国での政策の良し悪しを議論するのに使える、信頼できる統計データとは何でしょうか? 感染者数は、検査の性能・件数・方針などに強く依存するため、もっとも信頼性の低い指標です。一方、死亡者数は、相対的には信頼できる指標ですが、検査を受けないままに死亡してしまったケースについてはアンダーレポート(過小報告)となります。 特にいったん医療崩壊を起こしてしまうとあらゆる報告が追いつかなくなり、感染者数も死亡者数もきちんと管理できな

  • 使える統計モデル10選(前編) | AIdrops

    使える統計モデル10選(前編) 統計モデリング(statistical modelling)はデータ解析の方法論の1つです。データ解析の目的は、通常はただの数値や記号の羅列であるデータから、人間が何かしらの判断を行うために有益な情報を引き出すことにあります。データ分析者は、そのままでは意味をなさないデータに対して、折れ線グラフやヒストグラムなどを用いて、人間が判断を行いやすいようにデータの可視化を行います。一方で、時にはニューラルネットワークのような複雑な計算モデルを使ってデータを解析し、まだ観測されていない将来の値を予測させたりします。このように、データから有益な情報を引き出すために、データに対して人為的な視点や事前知識、数学的な仮定などを設計する作業をモデリング(modeling)と呼びます。 統計モデリングによるデータ解析では、データ自体や解析の目的に合わせて分析者が適切なモデルを設

    使える統計モデル10選(前編) | AIdrops
  • ベイズ統計 - HELLO CYBERNETICS

    はじめに データとモデル 確率モデル 確率モデルを作る 複雑なモデルを使うことが最善手であるか モデルの具体的な作り方 モデルの仮定 アンサンブルモデル 点推定モデル 最尤推定 制約付き最尤推定※ (最大事後確率推定) ベイズ予測分布と点推定 ベイズ統計学 ベイズ予測分布を得ることの意義 ベイズ統計学の主題 特異モデルと正則モデル ベイズ統計学のまとめ はじめに ベイズだの頻度論だので盛り上がっているので、ぶん殴られる覚悟で書いてみます。 データとモデル 観測値がランダムに見える場合、それを確率変数 $X$ として扱います。 さて、今、$X$ には我々が知ることのできない真の分布 $q(X)$ があるとしましょう。もしも、$X$ を無限回観測し満遍なくデータを集められるとすれば、$q(X)$ の形状を把握することができるかもしれません。 ところが、そんなのは幻想であって実際に無限回の観測を

    ベイズ統計 - HELLO CYBERNETICS
  • 食べログ3.8問題を検証 - クイックノート

    先日、twitter上でべログの星の数について、 ある問題が話題になりました。 べログの闇として話題になったその問題とは、 「評価3.8以上は年会費を払わなければ3.6に下げられる」 というものです。 べログは飲店についての口コミを集めるサイトで、 その評価は実際のユーザーによって形成されるものとして広く認知されています。 専門的なグルメリポーターでもなく、 一般の人々の素直な感想を集めることで、 その飲店のリアルな価値が知れると期待して、 利用しているユーザーも多いでしょう。 それだけに、 「べログが評価を恣意的に操作しているかもしれない」という話は、 瞬く間にネットで話題となりました。 さて、この話は実際に行われていることなのでしょうか。 べログでは、当然評価点は公開されているので、 このような恣意的な操作があれば、 何らかの形で偏りが見つかるはずです。 ということで、

    食べログ3.8問題を検証 - クイックノート
  • rebuild.fmの統計学 - Speaker Deck

    Ltech#3 【podcast × IT】LT Night ! で発表した資料です

    rebuild.fmの統計学 - Speaker Deck
  • 仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ

    パートナーアライアンス部 森田です。有料会員の獲得施策や、それに関わるサービス内動線の最適化を担当しています。 記事の対象 仮説検証を通じて何かを改善をしたいと思っている人 仮説検証の際に「どれくらいのデータを集めたら良いか」分からない人 はじめに 仮説検証とは「仮説を立て、それを証明するためのデータを集め、真偽を確かめること」です。今回は仮説検証を行う際の手順と、その検証に必要なサンプルサイズの考え方を説明します。サンプルサイズの話のみ関心があるかたは、前半を飛ばし「サンプルサイズの決め方」を読んでください。 目次 記事の対象 はじめに 目次 仮説検証のつくりかた 1. 仮説をたてる 2. 施策/KPIを考える 3. 仮説検証後のアクションを決める 4. 対象を決める 5. サンプルサイズを計算する サンプルサイズの決め方 答えを先に サンプルサイズを決める二つの要素 「二つの平均値」と

  • データを扱う開発者なら統計学の知識は大きな強みに~Pythonを使って基礎から学ぶ

    「データを扱う多くの人たちに統計学の知識や技術は有用」と話すのは、『Pythonで学ぶあたらしい統計学の教科書』の著者・馬場真哉さんです。注目集めるPythonを通して統計学を学ぶのは一見すると難しそうですが、その利点も多いとのこと。今回馬場さんに、書の狙いについてうかがいました。 Pythonは統計学の基礎を学ぶための十分な機能を持っている ――今回、『Pythonで学ぶあたらしい統計学の教科書』を執筆された馬場さんにお話をうかがいます。まずはご自身のことを簡単に教えてください。 馬場:私は大学では水産学部で水産資源解析を専攻し、サンマの来遊量予測とその評価に関する研究をしていました。自分自身の研究以外でも同期の友人や先輩方からデータ分析を依頼されることが多く、そういった要望に応える形で統計学を頻繁に利用していました。いまでも研究者になった友人たちの分析を手伝うことがあります。 卒業後

    データを扱う開発者なら統計学の知識は大きな強みに~Pythonを使って基礎から学ぶ
  • 統計を始めたい人に僕がPythonよりRを勧める理由 - 蛍光ペンの交差点

    今回は「ほぼRしか使ったことがない」人間*1が、できる限り二者の優劣をくっきり述べる。 僕はほとんどRしか使ったことがない。Pythonはtfidfやクイックソートをライブラリ無しで実装した程度。 前半の主張は以下である。 「過去のRでの10回程度の解析において、Rで不十分さを感じてPythonを使った経験は1度だけ、しかも部分的にしかなかった。Rの使いにくさを感じることも最近はだいぶ無くなった。だから初学者には「事足りる」Rを勧める。」 前半の主張 今までにRでやった解析の内容は大体以下である。 (未発表)は途中で頓挫した、もしくは現在進行中/契約により詳細&解析結果の公開不可能のプロジェクトである。 [ビジネス・製造業] 米国新車価格の線形重回帰分析(授業の期末課題) [ビジネス・不動産不動産賃貸価格の線形重回帰分析(発表スライド) [ビジネス・IT] EコマースサイトのARIMA

    統計を始めたい人に僕がPythonよりRを勧める理由 - 蛍光ペンの交差点
  • 1