タグ

関連タグで絞り込む (187)

タグの絞り込みを解除

統計に関するkoma_gのブックマーク (234)

  • 政府統計の総合窓口(e-Stat)のAPIを使ってみよう - Qiita

    e-Statでは政府が提供する様々な統計データをXMLやJSONで取得するAPIを使用できます。 APIの利用登録と動作テスト 1.下記のURLからAPIの利用申請をします。 http://www.e-stat.go.jp/api/regist-login/ 2.APIを登録申請が完了すると「メールアドレス」と「パスワード」でログインが可能になります。 3.ログイン後、再度ログイン画面に行くと「利用者情報変更/削除」と「アプリケーションIDの取得」がおこなえる画面が表示されます。 利用者情報変更では、登録時に指定したデータを変更することができます。 4.appIDの発行を行う。 「アプリケーションIDの取得」画面で名称とURLを入力して、「発行」ボタンを押すとappIDが取得できます。 urlは存在しない場合は「http://localhost/」等を入力してください。 appIDは3個ま

    政府統計の総合窓口(e-Stat)のAPIを使ってみよう - Qiita
  • 積分とは・対数とは・微分とは〜「分かる」とはどういうことか〜

    文系向け「統計学」の授業で、積分・対数・微分を復習する機会があった。その時の「1枚スライド」を公開した。この図をめぐって、「分かる」とはどういうことか、について多くのコメントをいただいた。それを、まとめました。(話が同時並行で進行するので、スレッド風の「まとめ」です。) 注意:積分は、統計学の場合、正規分布表を見るために必要。対数の必要性は、尤度関数(尤もらしさ)の対数をとって計算を簡単にする式変形で使うため。微分の必要性は、確率密度関数の最大値(尤度最大の条件)を求めるため。どれも統計学で必須の内容。 注意2:(追記8/6)ここに出てくる「指数、対数、微分、積分」は「感染症の数理モデル」の基礎となっている。 注意3:(追記8月9日)番外編『「積分」と「源氏物語」〜「晩年の清少納言」から「京都女子大」まで』へのリンクはこちらです。https://togetter.com/li/157284

    積分とは・対数とは・微分とは〜「分かる」とはどういうことか〜
  • 機械学習や統計学を「社会実装」するということ - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) 最近になって、こんな素晴らしい資料が公開されていたことを知りました。 この資料自体は著者のMoe Uchiikeさんが東大での講義に用いられたものだとのことですが、その内容の汎用性の高さから「これは全ての機械学習や統計学を実務で用いる人々が必ず読むべきドキュメント」と言っても過言ではないと思われます。 正直言ってこの資料の完成度が高過ぎるのでこんなところで僕がああだこうだ論じるまでもないと思うので、内容の詳細については皆さんご自身でまずは上記リンクから精読していただければと思います。その上で、今回の記事では「機械学習や統計学を『社会実装』する」ということがどういうことなのかについて、この資料を下敷きとした上でさらに僕自身の経験や見聞を加えて考察したことを綴ってみます。 機械学習や統計学と、社会との「ギャップ」 機械学習や統計学を、社会に「馴染ませる」

    機械学習や統計学を「社会実装」するということ - 渋谷駅前で働くデータサイエンティストのブログ
  • 文系のための「統計超入門セミナー」-目で見てわかるビジネス統計学-|講座

    文系が知りたい内容を凝縮して解りやすく目で見て体感し、理解するための統計的感覚が養える 私たちは日々の生活を送りながら、実はデータを分析していろいろなことを比較し判断しています。「東京のホテルの宿泊費ってだいたい何円くらい?」、「AとBのどちらを選べば良い結果が出るのか?」など、生活のなかには統計やデータサイエンスの考え方がたくさん隠されています。 近年はコンピューターの普及により、誰でも簡単に大量のデータを集められるようになりました。その大量のデータの活用法として、DXやデータサイエンス、AIなど、統計への注目度が大変大きくなっています。企業や研究機関でのデータ分析のニーズも高まっていますが、一方で、数学用語や数式の意味が理解できず、統計に漠然とした苦手意識を持っている方も少なくないのが実情です。 セミナーでは、統計の全体像をつかみ、ビジネスでどのように統計が使われているのかを学びます

    文系のための「統計超入門セミナー」-目で見てわかるビジネス統計学-|講座
  • 1-1. ギリシャ文字の読み方 | 統計学の時間 | 統計WEB

    統計学の書籍や論文には必ずといってよいほどギリシャ文字が使われています。しかし、いきなり登場されると読み方がわからず、そこで勉強がストップしてしまう恐れがあります。 下の表はギリシャ文字の読み方と、一般的な統計記号としての意味の一覧です。統計記号の使い方については今後おいおい登場すると思いますので、勉強をしていて読み方の分からないギリシャ文字が出てきたら、この表を見て確認してみてください。 なお、下表の中で特に記載のないものは、多くの場合ギリシャ文字の「小文字」を使います。

  • 【5分で分かりやすく解説】統計的因果推論!|スタビジ

    記事では、非常に奥が深い分野である統計的因果推論について見ていきたいと思います。相関関係と因果関係は違うということをしっかり理解し、どのように因果を見つけていけばよいか様々な方法を見ていきましょう!

    【5分で分かりやすく解説】統計的因果推論!|スタビジ
  • 改訂増補版:統計検定を理解せずに使っている人のためにIII

    © 2019 Japan Society for Bioscience, Biotechnology, and Agrochemistry © 2019 公益社団法人日農芸化学会 改訂増補にあたってこの総説は,「統計検定を理解せずに使っている人のためにIII」の改訂増補版であり,「改訂増補版:統計検定を理解せずに使っている人のためにII」の続きである.改訂増補に当たっての詳細は,「改訂増補版:I」の冒頭をお読みいただきたい.この改訂増補版では,理解しにくい部分について,わかりやすい説明に努めた.また,研究者が比較的行う頻度が高いと考えられる多重比較や二元配置分散分析の対応のある関連多群の検定の考え方を主に書き足した. 「改訂増補版:I」では,母集団,標,母分散,母標準偏差,標分散,標標準偏差,不偏分散,不偏標準偏差,正規性の検定について主に記述した.「改訂増補版:II」では,標準誤

  • 統計学に出てくる記号の読み方

    このページに出てきたんだけどなんなのかよくわからない https://nnadl-ja.github.io/nnadl_site_ja/chap1.html たぶん「ものすごく小さい値」を記号で表現しているんだとおもうけど…「ϵ」をGoogleで検索すると「イプシロン」のwikipediaがトップに出てきます。

    統計学に出てくる記号の読み方
  • Octoverse 2019年次レポート

  • 世論調査、大手の「自動化」推進で『誰でもできる』まであと数歩…じゃないか? - INVISIBLE Dojo. ーQUIET & COLORFUL PLACE-

    <おことわり> 毎日新聞の全国世論調査は4月まで家庭の固定電話と個人の携帯電話に調査員が電話をかける方式で実施してきました。しかし、コールセンターで多数の調査員が作業する環境は新型コロナウイルスの感染リスクが指摘されるため、感染終息が見通せない中でこの調査方式を続けることはできないと考えています。 毎日新聞が社会調査研究センターと23日に実施した全国世論調査は4月8日、5月6日に続き3回目となります。こちらは自動音声応答(オートコール)と携帯ショートメールの機能を使うため「3密」環境での作業は生じません。 コンピューターが無作為に数字を組み合わせた番号に電話をかけるRDS法を用いる点は従来調査と変わりません。回答者の年代構成など安定したデータを得られることが確認されたので、今後は社会調査研究センターの調査方式に切り替えていきます。 mainichi.jp この話、出た数字の話なんてのは、一

    世論調査、大手の「自動化」推進で『誰でもできる』まであと数歩…じゃないか? - INVISIBLE Dojo. ーQUIET & COLORFUL PLACE-
  • 西浦先生らによる実効再生産数の統計モデルを解説&拡張する試み - StatModeling Memorandum

    先日の西浦先生のニコ生の発表を聞いていない人はぜひ聞いてください。 モデルとデータを以下のリポジトリでオープンにしていただいたので、モデルについて僕が分かる範囲内で少し解説を加えたいと思います。 github.com 実効再生産数を推定するコードが2種類ありまして、最尤推定(Maximum Likelihood Estimation, MLE)を使ったMLE版(Sungmok Jungさん作成)と 、ベイズ推定版(Andrei Akhmetzhanovさん作成)があります。どちらもコンセプトはほぼ同じで、実装が若干異なります。この記事では、ベイズ推定版(以降、元コードと呼びます)の流れを簡単に説明し、その後でその拡張を試みます。 ベイズ推定版の流れ 大きく分けて「データの集計」「back projection」「実効再生産数の推定」の3つの部分からなります。 データの集計 まずは日付ごとの

    西浦先生らによる実効再生産数の統計モデルを解説&拡張する試み - StatModeling Memorandum
  • 統計教育動画配信 | 統計数理研究所 統計思考院

    下記の通りです。 入門的な部分(初日前半) 川崎講師「データの可視化と要約」 立森講師「相関と独立性」 立森講師「因果と相関」 L-Aの中では比較的高度な部分(最終日) 二宮講師「モデル選択とAIC」 二宮講師「一般化線形モデル(GLM)」【2020.6.3追加公開】 伊庭講師「主成分分析とその周辺」 これらの動画は受講生の復習用に準備されたもので、画質等も十分ではありませんが、その点はご容赦ください。各部分は比較的独立に視聴できるようになっておりますが、2.の部分で今回非公開の部分への参照があります。テキストおよびスライドの頒布は行っておりません。 「データの可視化と要約」講師:川崎 能典(統計数理研究所) 1. データの属性と可視化 2. 分布特性の定量的記述 3. 欠測値について 「相関と独立性」講師:立森 久照(国立精神・神経医療研究センター) 1. 図による2変数間の可視化 2.

  • - YouTube

    YouTube でお気に入りの動画や音楽を楽しみ、オリジナルのコンテンツをアップロードして友だちや家族、世界中の人たちと共有しましょう。

    - YouTube
  • 【統計モデリング入門 】一般化線形モデル(GLM)を基礎から学ぶ -Pythonによる実践あり-|はやぶさの技術ノート

    最初に「モデリング」や「モデル」などの用語について整理しておきます。 モデリングとは あるデータを入力したとき、ユーザーがほしい情報を出力する箱をモデルと呼びます。 例えば下図は、あるパターンの波形を入力すると、その数秒先の波形を予測(出力)するモデルのイメージです。 引用元:MXNetとLSTMで時系列データ予測 -入門から実践まで- このモデルを設計する作業がモデリングです。具体的には、モデルの中身にあたるアルゴリズムを検討する作業のことです。 近年では深層学習モデルが人気です。実は上図もLSTMと呼ばれるアルゴリズムを活用した深層学習モデルです。

    【統計モデリング入門 】一般化線形モデル(GLM)を基礎から学ぶ -Pythonによる実践あり-|はやぶさの技術ノート
  • 特異度と偽陽性率と陽性反応的中割合と - NATROMのブログ

    問題:疾患Aの有病割合は10万人に1人である。あなたは疾患Aに関して特にリスクが高いわけでも低いわけでもなく、平均的なリスクを有している。あなたが検診で疾患Aの検査を受けたところ、陽性であるという結果であった。この検査の感度は100%(偽陰性率0%)、特異度は99%(偽陽性率1%)である。あなたが真に疾患Aである確率は? 感度・特異度の話はややこしく、うっかりするとたやすく間違えてしまう。信頼できる書籍をアンチョコにするのがよい。以下、医学者は公害事件で何をしてきたのか(津田敏秀著)より表を引用する。 診断の正しさを評価するための2かけ2表 「感度は100%。特異度は99%」という高い精度の検査で陽性という結果が出た以上、真に疾患Aである確率は高そうに直感的には思われる。しかし、実際にはそれほどではない。有病割合がきわめて低いと、検査で陽性の結果が出た人の大半が偽陽性である。実際に2×2の

    特異度と偽陽性率と陽性反応的中割合と - NATROMのブログ
  • 国際比較に使える唯一の指標「超過死亡」で明らかになる実態 - 新型コロナウイルス情報室 - Quora

    今回取り上げるのは、フィナンシャル・タイムズからの「死者数は報告されているよりも60%高い可能性がある」というレポートです。 Global coronavirus death toll could be 60% higher than reported | Free to read ここで、論に入る前に、少し前置きです。 アウトブレイクが現在進行形で起きているときに、異なる国での政策の良し悪しを議論するのに使える、信頼できる統計データとは何でしょうか? 感染者数は、検査の性能・件数・方針などに強く依存するため、もっとも信頼性の低い指標です。一方、死亡者数は、相対的には信頼できる指標ですが、検査を受けないままに死亡してしまったケースについてはアンダーレポート(過小報告)となります。 特にいったん医療崩壊を起こしてしまうとあらゆる報告が追いつかなくなり、感染者数も死亡者数もきちんと管理できな

  • cakes(ケイクス)

    cakesは2022年8月31日に終了いたしました。 10年間の長きにわたり、ご愛読ありがとうございました。 2022年9月1日

    cakes(ケイクス)
  • 10-6. ベイズの定理の使い方 - 統計WEB

    例題: 日人の0.01%が罹患しているある病気について考えます。この病気の検査方法では、実際に病気に罹患している人が陽性と判定される確率が95%、逆に罹患していない人が陰性と判定される確率は80%であると言われています。 ある人がこの病気の検査を受けて陽性という判定を受けた時、当にこの病気に罹患している確率はいくらでしょうか。 検査で陽性になる事象を事象、検査で陰性になる事象を事象(事象Aの余事象)、実際に病気に罹患している事象を事象、罹患していない事象を事象とします。ベイズの定理を使うと、求める確率はとなります。 問題文から、それぞれの確率は次のようになります。 病気に罹患している確率: 病気に罹患していない確率: 実際に罹患している人が検査で陽性となる確率: 実際に罹患していない人が検査で陰性となる確率: 実際に罹患していない人が検査で陽性となる確率: これらの値を①の式に当てはめ

  • 使える統計モデル10選(後編) | AIdrops

    使える統計モデル10選(後編) 前回の記事では、使える統計モデル10選の前編として、主に回帰モデルに焦点を絞って紹介しました。 今回はその後編に当たる生成モデル編です。生成モデル(generative model)は、端的に言うと、コンピュータシミュレーションによりデータを人工的に作ることができるモデルです。データが作られる過程をうまく表現したモデルを構築することができれば、予測だけではなく異常検知やデータ圧縮など幅広いタスクに応用することができます。 生成系(教師なし系) 回帰モデルと同様、生成モデルも数個のパラメータから構成される簡単なものから、複数のモデルを巧みに組み合わせた複雑なものまで無限に存在します。ここでは、データ圧縮から自然言語処理、ソーシャルネット解析までさまざまなデータ解析のタスクで利用されている代表的な生成モデルを5つ選んで紹介します。また、生成モデルのすべては潜在変

    使える統計モデル10選(後編) | AIdrops
  • 人生を確率を通してみる、今年ベスト級の科学ノンフィクション!──『もうダメかも──死ぬ確率の統計学』 - 基本読書

    もうダメかも 作者:マイケル・ブラストランド,デイヴィッド・シュピーゲルハルター発売日: 2020/04/13メディア: 単行我々はウルトラマンに守られているわけではないのだから、死ぬときがきたら死ぬしかない。その事実は多くの人が認識しているだろう。が、実際に自分が人生の各フェイズでどれぐらい死ぬ確率があるのか、多くの人はそこまで認識してはいないのではないだろうか。10代、20代なら自分が死ぬことなど意識しないだろうし、30代でもそう大きくは違わないだろう。だが、人は何歳であろうともポカっと死ぬものだ。 というわけでこの『もうダメかも──死ぬ確率の統計学』は、ノームと名付けられてこの世に生を受けた一人の男性の成長を歩調をあわせて、人生の各フェイズでどのような死亡リスクがあるのかを細かく統計でみていこう、というである。 たとえば、交通事故、出産時、タバコを一吸った時、放射線を浴びた時、

    人生を確率を通してみる、今年ベスト級の科学ノンフィクション!──『もうダメかも──死ぬ確率の統計学』 - 基本読書