並び順

ブックマーク数

期間指定

  • から
  • まで

681 - 720 件 / 1349件

新着順 人気順

statisticsの検索結果681 - 720 件 / 1349件

  • 統計学とはそもそも「無作為抽出された少量のデータ」を分析するためのものであった - 渋谷駅前で働くデータサイエンティストのブログ

    しばらく前にQuoraにこんなアンサーを書いたことを思い出したので、ついでにリブログ記事として転載の上加筆修正したものを用意してみました。僕にしては珍しくコッテコテの頻度主義的な話題である上に、「p値なんか使うのはやめてしまえ」という記事を以前に書いておきながらこんな議論をするのは自己矛盾かもしれませんが(笑)、これまでの統計学の歴史を紐解くことで、温故知新ということで新たに理解されることもあるのかなと思っています。 小標本のための統計学と、「スチューデント」ことゴセットの話 補足 小標本のための統計学と、「スチューデント」ことゴセットの話 近代統計学とは、「無作為抽出によって得られた小標本を分析することで、その背後にある母集団の性質を推定する」ために改良が積み重ねられてきた営みです。すなわち、統計学は「少量のデータを扱う学問」そのものだとも言えます。 (Skbkekas - 投稿者自身に

      統計学とはそもそも「無作為抽出された少量のデータ」を分析するためのものであった - 渋谷駅前で働くデータサイエンティストのブログ
    • Kaggleランカーの9人に聞いた、2020年面白かったコンペ9選と論文9選 | 宙畑

      9名のKagglerの方にアンケートにご協力いただき、2020年に面白かったコンペと論文を教えていただきましたのでその結果を紹介します。 2020年も数多くのデータ解析コンペが開催され、興味深い論文が多く発表されました。 昨年公開した「Kaggle上位ランカーの5人に聞いた、2019年面白かったコンペ12選と論文7選」は現時点で20,000人を超える方にご覧いただき、Kaggleを始めとするデータ解析コンペへの関心が非常に高まっていると感じました。 そして本年も9名のKagglerの方にアンケートにご協力いただき、2020年に面白かったコンペと論文を教えていただきましたのでその結果を紹介します。 (1)回答いただいたKaggler9名のご紹介 まずは今回のアンケートに回答いただいたのは以下9名のKagglerの方です。 aryyyyyさま(@aryyyyy221) カレーちゃんさま(@cu

        Kaggleランカーの9人に聞いた、2020年面白かったコンペ9選と論文9選 | 宙畑
      • 島根県の事例からも数字で明らかになる「検査をすると患者が増える」説のデタラメさ « ハーバー・ビジネス・オンライン

        前回、長野県の新聞トップシェアの県紙である信濃毎日新聞7/21朝刊1面トップを飾った「新型コロナ 妊婦にPCR検査実施へ 県、希望者に無料で」という記事と付属するネット未転載の囲み記事が、ジャパンオリジナルエセ医療・エセ科学デマゴギーに深刻に汚染されているという事を実際にその記事の数値的検証を行うことによって解明しました。 予定では今回は、本シリーズ17回の続きに戻すはずですが、文春オンラインで、興味深い記事が公開されました。 ●たった1人の感染者が地方都市にコロナを持ち込むとどうなるか?《島根で実際に起きた“舞台クラスター”波及騒動》2020/07/23安藤 華奈 文春オンライン 筆者は把握していなかったのですが、東京で舞台観劇をした大学生の女性が、感染者接触追跡調査の結果PCR検査を受診することとなり、SARS-CoV-2に感染していたという事が判明したとの記事で、ご本人は無症状だった

          島根県の事例からも数字で明らかになる「検査をすると患者が増える」説のデタラメさ « ハーバー・ビジネス・オンライン
        • Japan COVID-19 Coronavirus Tracker

          The data on this tracker will stop updating from 2022-09-27. As the government of Japan announced their reduction of case reporting, the data this site relies on will not be regularly updated. As an alternative, please use the NHK News COVID-19 dashboard for up to date information.

            Japan COVID-19 Coronavirus Tracker
          • データ分析もChatGPTに“お願い”するだけ!? 探索的データ分析プラグイン「Noteable」を試す【イニシャルB】

              データ分析もChatGPTに“お願い”するだけ!? 探索的データ分析プラグイン「Noteable」を試す【イニシャルB】
            • 2つの事象に因果関係がないのにあるように見える『擬似相関』の中でも「メイン州の離婚率とマーガリンの消費量」の相関係数が高すぎて面白い

              リンク Wikipedia 擬似相関 擬似相関(ぎじそうかん、英: Spurious relationship, Spurious correlation)は、2つの事象に因果関係がないのに、見えない要因(潜伏変数)によって因果関係があるかのように推測されること。擬似相関は、客観的に精査するとそれが妥当でないときにも、2つの集団間に意味の有る関係があるような印象を与える。 2つの(確率)変数間の擬似相関は、第三の原因変数を導入することで生み出される。換言すれば、A と B の間の相関を見出す。従って、考えられる関係としては次の3つがある。 最 41 users 77 リンク GIGAZINE ニコラス・ケイジの映画が増えるとプールで溺死する人も増えるのか? 「首つり自殺数」と「アメリカの科学・宇宙・テクノロジーに関する支出」や、「水泳プールでの溺死数」と「ニコラス・ケイジの映画出演数」、「

                2つの事象に因果関係がないのにあるように見える『擬似相関』の中でも「メイン州の離婚率とマーガリンの消費量」の相関係数が高すぎて面白い
              • ノルウェーの自動車販売台数におけるEVシェアは91%/売れ行きトップはボルボEX30 - EVsmartブログ

                日本の一般メディアでは「EV失速」などと伝えられる中、ノルウェーにおける4月の自動車販売台数における電気自動車のシェアは91%を記録。最も売れた車種はボルボEX30でした。アメリカのメディア『CleanTechnica』から全文翻訳でお届けします。 【元記事】EVs Take 91.0% Share In Norway — Volvo EX30 Grabs Top Spot by Dr. Maximilian Holland on 『Clean Technica』 ※冒頭写真は日本でも販売好調なボルボ『EX30』(関連記事)。 新車販売で90%以上の電気自動車シェアが継続 2024年4月、ノルウェーの自動車市場は「プラグイン充電可能な」EV(PHEVを含む)のシェアが91.0%で、前年同月の91.1%とほとんど変わらない結果となりました。BEVのみのシェアは89.4%で、前年同月の83.3

                  ノルウェーの自動車販売台数におけるEVシェアは91%/売れ行きトップはボルボEX30 - EVsmartブログ
                • 「効果検証入門」をPythonで書いた - Qiita

                  TL;DR 書籍「効果検証入門 正しい比較のための因果推論/計量経済学の基礎」のRソースコードを、Pythonで(ほぼ)再現しました https://github.com/nekoumei/cibook-python 本記事では、主にRではライブラリどーん!で済むけどPythonではそうはいかない部分の解説をします 書籍の紹介 https://www.amazon.co.jp/dp/B0834JN23Y 上記Amazonに目次が載っているのでそれを見るのが早い気がしますが。。 とても良い本です。正確な意思決定を行うためにどうやってバイアスを取り除くか?に焦点を当てて種々の因果推論の手法(傾向スコア/DiD/RDDなど)をRソースコードによる実装とともに紹介されています。 全体を通して、現実問題の効果検証に因果推論を活用するにはどうすればいいか?という観点で書かれており、非常に実用的だなーと

                    「効果検証入門」をPythonで書いた - Qiita
                  • データエンジニアと作るデータ文化

                    オープンセミナー広島2022での登壇資料です。 当日のライブ配信です。 Youtube https://www.youtube.com/watch?v=XgVbZZyoFxQ

                      データエンジニアと作るデータ文化
                    • 統計学習の指導のために(先生向け)

                      PDF形式のファイルをご覧いただく場合には、Adobe Readerが必要です。 Adobe Readerをお持ちでない方は、バナーのリンク先から無料ダウンロードしてください。

                      • 日本政府はなぜ、どれだけ「病院」と「病床」を減らしてきたのか(伊藤 周平) @gendai_biz

                        新型コロナウイルス(Covid-19)の感染拡大が、国民生活にも日本経済にも大きな影響を及ぼし、医療など日本の社会保障の脆弱さを可視化した。 何より、新型コロナの感染拡大地域では医療提供体制がひっ迫し、医療が機能不全に陥る「医療崩壊」が現実化した。病床や感染症治療を担う公的・公立病院や保健所を削減し、医師数を抑制してきた日本の医療費抑制策のツケが回ってきたともいえる。 しかし、安倍政権は、医療崩壊に歯止めをかけるために十分な予算措置を取ることなく、事業者への「補償なき自粛要請」、医療現場や国民への「自助努力」の無理強いだけで全くの無策である。 本稿では、医療費抑制策を中心としたこれまでの医療政策を検証し、新型コロナの感染拡大による医療崩壊の現状を概観したうえで、医療崩壊に歯止めをかける緊急提言を行う。 「指定医療機関」「感染症病床」の激減 医療崩壊が現実化した背景には、医療費抑制策を続けて

                          日本政府はなぜ、どれだけ「病院」と「病床」を減らしてきたのか(伊藤 周平) @gendai_biz
                        • 【記事更新】私のブックマーク「反実仮想機械学習」(Counterfactual Machine Learning, CFML) | 人工知能学会 (The Japanese Society for Artificial Intelligence)

                          Home » リソース » 私のブックマーク » 【記事更新】私のブックマーク「反実仮想機械学習」(Counterfactual Machine Learning, CFML) 反実仮想機械学習(Counterfactual Machine Learning, CFML)齋藤 優太(東京工業大学) はじめに機械学習の応用において,反実仮想(Counterfactual)─起こり得たけれども実際には起こらなかった状況─についての情報が得られるとうれしい場面が多くある.例えば,「今動いている推薦アルゴリズムを仮に別のアルゴリズムに変えたときにコンバージョン率はどれくらいになるだろうか?」や「あるユーザに仮にクーポンを与えた場合に離反率はどれくらい減少するだろうか?」などの実務現場でよくある問いに答えるためには,反実仮想についての情報を知る必要がある. 反実仮想機械学習(CFML)とは,因果効果

                          • 国友直人のホームページ

                            私のホーム・ページにようこそ 制作協力:福井崇人・一場知之/最後の訂正:2023年1月15日 [ 英語 | 日本語 ] 研究・教育活動の主な分野 統計学、計量経済学、数理・計量ファイナンス、経済統計学、データサイエンス(統計科学) 最近の活動 社会協力活動 国土交通省第三者委員会委員(建設工事受注動態統計調査の不適切処理問題, 2021.12.23-2022.1.14) 報告書, 国土交通省 研究協力 経済時系列解析プログラム・季節調整法X12SIML(佐藤整尚先生, 2023.2.1) 日本語解説, 英語解説 新刊 「データ分析のための統計学入門」("OpenIntro Statistics, 4th Edition" by D.Diez, M.Cetinkaya-Rundel and C.Barr, 日本語印刷版(誤植訂正版), 日本統計協会, 小暮厚之氏・吉田靖氏と共訳,2021年3

                            • データ分析のためのPythonを学び始める時につまずかないための6つのステップ

                              ステップ1:学習すべき3要素を知るステップ2:環境構築をするステップ3:Pythonの基本を覚えるステップ4:主要なライブラリをマスターするステップ5:データ分析の一連の流れを把握し、写経するステップ6:自分で一から分析する 各ステップは、それ以前のステップで習得した要素を必要とします。そのためステップは飛ばさずに理解していく必要があります。学習を進めていく中で前のステップを再度理解し直す場合もありますが、一度学習をしたステップの内容ならば2度目はすんなりと理解できるはずです。 以下、各ステップにおける内容をコツや注意点も含めてみていきます。 DXのお悩みを解決する「DXの羅針盤」をダウンロードする ステップ1:学習すべき3要素を知る「環境構築」、「Python言語の習得」、「分析作業の理解」が、Pythonでデータ分析を始めるために必要な3要素です。 Pythonの文法ばかりを勉強してい

                                データ分析のためのPythonを学び始める時につまずかないための6つのステップ
                              • 『データ分析のための統計学入門』PDFが無料に:今月のAIニュース8選 | Ledge.ai

                                画像はUnsplashより 日々、目まぐるしく進化、発展を遂げるAI(人工知能)業界。さまざまな企業が新しいサービスを開始したり、実験に取り組んだりしている。 そこで本稿ではLedge.aiで取り上げた、これだけは知っておくべき、4月掲載のAIに関するニュースをお届けする。AIの活用事例はもちろん、新たな実証実験にまつわる話など、本稿を読んでおけばAIの動向が見えてくるはずだ。 Pythonの基礎やDXの事例を学べる講座が無料に 経済産業省は、AIやデータサイエンスなどのデジタルスキルを学べる、無料オンライン講座を紹介する「巣ごもりDXステップ講座情報ナビ」を公開している。 シスコシステムズ合同会社が提供する「IoT/DX入門」では、DX(デジタルトランスフォーメーション)とは何かを理解し、DXがいかに経済的成長機会を生み出しているか学べるという。具体的には、DXを支えるテクノロジーとして

                                  『データ分析のための統計学入門』PDFが無料に:今月のAIニュース8選 | Ledge.ai
                                • データ分析は「次にどうするかを決めるため」にやること

                                  作成者 :しんゆう ブログ :データ分析とインテリジェンス https://analytics-and-intelligence.net/ Twitter:https://twitter.com/data_analyst_

                                    データ分析は「次にどうするかを決めるため」にやること
                                  • 基幹統計「農業集落調査」廃止方針に研究者たちが猛反発する理由 「ミクロデータの扇の要」:東京新聞 TOKYO Web

                                    5年に1度、農林水産省が実施する国の基幹統計「農林業センサス」の一部で、60年以上の歴史がある「農業集落調査」の存廃がいま、議論になっている。次回2025年について、農水省が「実施が困難」だとして廃止の方針を示したところ、研究者らが猛反発。継続を求める署名は1000人を超えた。一方で、基幹統計は、相次ぐ不正で信頼性が低下。統計にかかわる職員の減少も進む。国の政策立案を支える重要統計は、大きな変革を迫られている。(特別報道部・山田祐一郎)

                                      基幹統計「農業集落調査」廃止方針に研究者たちが猛反発する理由 「ミクロデータの扇の要」:東京新聞 TOKYO Web
                                    • 「因果関係」をとらえるために / To grasp causal relationship

                                      ブレインパッド社内勉強会での発表スライドを公開しました 本スライドは #OpenBP の活動の一環として公開しています https://twitter.com/search?q=%23OpenBP&src=hashtag_click #OpenBPとは→ https://note.mu/ysd…

                                        「因果関係」をとらえるために / To grasp causal relationship
                                      • 日本人起業家が大型M&A後に描く次のビジョン「今35歳。あと2、3周は何かにチャレンジしたい」

                                        Treasure Dataは、2011年に芳川裕誠氏、太田一樹氏、古橋貞之氏の3名がシリコンバレーで創業したビッグデータ分析企業。2018年8月、ソフトバンクグループ傘下のコンピュータチップ設計企業ARMが、約6億ドル(約660億円)で同社を買収したニュースは記憶に新しい。Treasure Dataの元CTOで現取締役の太田一樹氏に、学生時代から創業までの経緯や、グローバルスタートアップとして成長するプロセス、ARMとのM&Aの裏側などについて聞いた。(前編:日本人CTOがシリコンバレーで25歳で起業し、660億円で買収されるまでの道のり) ※インタビューシリーズ「シリコンバレーから日本を考える」では、櫛田健児氏(スタンフォード大学ジャパン・プログラム リサーチスカラー)がシリコンバレーの企業・スペシャリストにインタビューし、日本の未来・可能性について掘り下げます。 <目次> ・一番大きな

                                          日本人起業家が大型M&A後に描く次のビジョン「今35歳。あと2、3周は何かにチャレンジしたい」
                                        • 周年記念事業関連|日本統計学会

                                          50周年記念事業関連日本統計学会編,『日本の統計学五十年』,東京大学出版会,1983年 【目次】 【本文(全文スキャンデータ,PDF26.2MB】 (東京大学出版会様の許可を受け,全ページを掲載するものです。2016/08/17掲載) 75周年記念事業関連国友直人・山本拓監修 国友直人・山本拓編,『21世紀の統計科学 Vol.I 社会・経済の統計科学』 小西貞則・ 国友直人編,『21世紀の統計科学 Vol.II 自然・生物・健康の統計科学』 北川源四郎・竹村彰通編,『21世紀の統計科学 Vol.III 数理・計算の統計科学』,東京大学出版会,2008年 上記3冊の2012年増補版はEBSA(統計科学のための電子図書システム)で閲覧、ダウンロード可能です。 〈Vol.Ⅰ〉 【閲覧、ダウンロード】 〈Vol.Ⅱ〉 【閲覧、ダウンロード】 〈Vol.Ⅲ〉 【閲覧、ダウンロード】

                                          • 東京都 新型コロナ 23人死亡 1万5834人感染 前週比8900人余減 | NHK

                                            東京都内の28日の感染確認は1万5834人で、1週間前の日曜日より8900人余り減りました。 一方、都は感染が確認された23人が死亡したことを発表しました。 東京都は28日、都内で新たに10歳未満から100歳以上の1万5834人が新型コロナウイルスに感染していることを確認したと発表しました。 1週間前の日曜日より8946人減り、これで1週間続けて前の週の同じ曜日を下回りました。 年代別に見ると20代が最も多く、全体の16.8%に当たる2653人でした。 また、次に多かったのは40代で、全体の16.6%に当たる2622人でした。 65歳以上の高齢者は1694人で全体の10.7%でした。 また、28日までの7日間平均は1万9544.4人で、前の週の75.5%となりました。 人工呼吸器か、ECMO=人工心肺装置を使っている重症の患者は、27日より2人増え40人でした。 一方、都は感染が確認された

                                              東京都 新型コロナ 23人死亡 1万5834人感染 前週比8900人余減 | NHK
                                            • 母子世帯の生活保護減少の謎

                                              生存権の最後の砦の生活保護ですが,時代と共に受給世帯は増えてきています。 厚労省『被保護者調査』によると,1995年度の受給世帯数(月平均)は約60万世帯でしたが,10年後の2005年度に100万世帯を超え,2014年度には160万世帯に達しました。平成の「失われた20年」にかけて,生活に困窮する世帯が増えたためです。 しかしそれ以降は横ばいです。コロナ禍の昨年は増えただろうと思われるかもしれませんが,2019年度は162万7724世帯,20年度は162万9522世帯で,ほんの微増にとどまっています。困り果てている人は間違いなく増えているはずですが,生活保護の受給世帯数はほとんど変わっていない。2019年7月から2021年7月までの受給世帯数のグラフ(月単位)を描くと,ほぼ真っ平です。最近の生活保護の機能不全については,先週のニューズウィーク記事で書きました。 ここで書くのは,その続きです

                                                母子世帯の生活保護減少の謎
                                              • 飲食店の隣の年長者「君はねぇ、もっと統計学を勉強しなさい!」→叱っている対象が統計家であり、東大助教の猛者だった

                                                西内啓 Hiromu Nishiuchi @philomyu 自分が童顔なせいなのか「飲食店で知らない隣席の年長者から急に説教される」という体験することちょくちょくあって、以前一度「君はねぇ、もっと統計学を勉強しなさい!」って叱られた際にはその場に居合わせた知人全員苦笑してたんですけど、確かに許されるのであればまだまだ自分統計学勉強したい。 2021-11-27 14:46:21 西内啓 Hiromu Nishiuchi @philomyu 「たまたま出くわす酔っぱらいのおじさんが統計学の重要性を説くようになった」のって確実に自分のミッションとしての勝利だと思うし、けっこうマジめに「そうですね!最近自分統計学の勉強する時間足りてないかもしれません!」って思ったので素直に反応してたんですけど何か自分間違ってますか。 2021-11-27 14:46:22 西内啓 Hiromu Nishiuc

                                                  飲食店の隣の年長者「君はねぇ、もっと統計学を勉強しなさい!」→叱っている対象が統計家であり、東大助教の猛者だった
                                                • 「ポリコレのせいでアメコミが売れなくなっている」という説はどうしたら証明できるのか : 九段新報

                                                  コメント一覧 (20) 1. ? 2020年08月07日 16:12 >シェア割合の話を引っ張り出す人がいますが、意味がありません 2. たま 2020年08月07日 21:07 たぶん、もっと以前、1970年代からのことを言っているのだと思います。そのころから公共性への配慮のため、アメリカンコミックスは何度も変遷を重ねており、その度にシリーズの雰囲気を維持できなくなったり、続けられなくなっています。 今のコミックの売り上げに変化がないのは下げ止まりの状態で、規制がなければもっと活況を呈したはず、特に日本との比較において、市場規模が大きいアメリカの売り上げが極端に少ないのはPCのためだ、とい主張うことなのかなあ、と考えています。 あとPCって、例えばメリークリスマスをハッピーホリデーにするといった名称の置き換えが主だったと思ったんですけど、多分表現規制と混ざってるんですね。今、コミックスに

                                                    「ポリコレのせいでアメコミが売れなくなっている」という説はどうしたら証明できるのか : 九段新報
                                                  • 【独自】都内感染者、報告漏れ多数…端末入力後に手で書き写し報告した保健所も

                                                    【読売新聞】 東京都が発表している都内の新型コロナウイルスの感染者数について、保健所から多数の報告漏れなどが見つかっていることがわかった。都内の累計感染者数は10日時点で4868人だが、都は集計のやり直しを進めており、現時点で100

                                                      【独自】都内感染者、報告漏れ多数…端末入力後に手で書き写し報告した保健所も
                                                    • 「女性は男性より幸福度が高い」「だから女性の支援は後回し」という議論の危うさ(山本 咲子) @gendai_biz

                                                      「女性は男性より幸福度が高い」「だから女性の支援は後回し」という議論の危うさ 適応的選好形成とは何か? みなさんは世論調査に協力したことがありますか? 世論調査には生活の満足度や幸福度を問う質問があり、この調査結果は様々な社会政策に反映されています。 2018年度の調査によれば、現在の生活に対する満足度について、男性の72.9%、女性の76.3%が「満足」と回答し、男性の26.3%、女性の22.7%が「不満」と回答しました。この結果だけを見ると、多くの人は男性よりも女性の方が現在の生活に満足していると思うのではないでしょうか。 なお、過去の調査でも、生活に満足している人の割合は20代女性が最も高いことや、男性より女性の幸福感が高いことが報告されています。これ以外にも、多くの調査や研究において、女性は男性よりも生活の満足度や幸福度を高く回答する傾向があり、日本では一般的に女性は男性より生活満

                                                        「女性は男性より幸福度が高い」「だから女性の支援は後回し」という議論の危うさ(山本 咲子) @gendai_biz
                                                      • オシント新時代~荒れる情報の海:ロシアのプロパガンダ、誰が拡散? SNS分析でみえた情報戦の姿 | 毎日新聞

                                                        大使館などロシア政府の公式アカウントが、ある投稿から60秒以内に拡散し合うことを示すデータを基に作成したイメージ図=豪クイーンズランド工科大のティモシー・グラハム氏提供 「ウクライナには米国主導の生物兵器研究所がある」。数年前からネット交流サービス(SNS)などで繰り返し流れ、「ばかげている」「陰謀論」と米欧諸国が明確に否定してきた誤情報だ。だが、ロシアのウクライナ侵攻前後の1週間で、ツイッターのユーザーが同趣旨の投稿を目にしたのは日本語圏だけでも900万回にも上るという。侵攻を正当化するロシアの主張に沿った情報に共鳴し、拡散しているのは一体誰なのか――。【金森崇之、八田浩輔】 陰謀論、反ワクチンの影 ロシアの侵攻が始まった2月下旬、仙台市のインターネットセキュリティー会社Sola.com(ソラコム)の情報分析担当者が目を留めたのは、「ウクライナには米国主導の生物兵器研究所がある」とのSN

                                                          オシント新時代~荒れる情報の海:ロシアのプロパガンダ、誰が拡散? SNS分析でみえた情報戦の姿 | 毎日新聞
                                                        • (データを扱う)ビジネスマン全てにおすすめの本 - HELLO CYBERNETICS

                                                          はじめに データ分析:実用系 Kaggleで勝つデータ分析の技術 ウェブ最適化ではじめる機械学習 データ分析:因果推論 入門 統計的因果推論 計量経済学 大人の教養 世界標準の経営理論 科学的に正しい筋トレ 最強の教科書 落合務のパーフェクトレシピ はじめに 今回は、特にドメインを指定せず、読むと間違いなく誰にでも勉強になるであろうと感じた書籍を紹介します。 データ分析:実用系 Kaggleで勝つデータ分析の技術 Kaggleで勝つデータ分析の技術 作者:門脇 大輔,阪田 隆司,保坂 桂佑,平松 雄司発売日: 2019/10/09メディア: 単行本(ソフトカバー) "Kaggleで勝つ"と題名にはありますが、データ分析、特に予測モデルを作るようなケースで重要な基礎知識が実践的に学ぶことができる非常に良い本となっています。例えば、交差検証といえば、基本的には汎化誤差の推定量として統計学の本に

                                                            (データを扱う)ビジネスマン全てにおすすめの本 - HELLO CYBERNETICS
                                                          • ベイズ統計 - HELLO CYBERNETICS

                                                            はじめに データとモデル 確率モデル 確率モデルを作る 複雑なモデルを使うことが最善手であるか モデルの具体的な作り方 モデルの仮定 アンサンブルモデル 点推定モデル 最尤推定 制約付き最尤推定※ (最大事後確率推定) ベイズ予測分布と点推定 ベイズ統計学 ベイズ予測分布を得ることの意義 ベイズ統計学の主題 特異モデルと正則モデル ベイズ統計学のまとめ はじめに ベイズだの頻度論だので盛り上がっているので、ぶん殴られる覚悟で書いてみます。 データとモデル 観測値がランダムに見える場合、それを確率変数 $X$ として扱います。 さて、今、$X$ には我々が知ることのできない真の分布 $q(X)$ があるとしましょう。もしも、$X$ を無限回観測し満遍なくデータを集められるとすれば、$q(X)$ の形状を把握することができるかもしれません。 ところが、そんなのは幻想であって実際に無限回の観測を

                                                              ベイズ統計 - HELLO CYBERNETICS
                                                            • 書評 「アメリカン・ベースボール革命」 - shorebird 進化心理学中心の書評など

                                                              アメリカン・ベースボール革命: データ・テクノロジーが野球の常識を変える 作者:ベン・リンドバーグ,トラビス・ソーチック化学同人Amazon 本書は「マネー・ボール」に始まるメジャーリーグにおける数理統計やデータサイエンスの応用の最新動向を扱った本になる.著者はベン・リンドバーグとトラビス・ソーチック.いずれもジャーナリストで,ソーチックは「ビッグデータ・ベースボール」の著者でもある. メジャーリーグにおける本格的な数理統計の応用は「マネー・ボール」で紹介されたセイバーメトリクスの利用から始まる.これは選手の能力や貢献を測るためには伝統的な成績指標(打率,打点など)よりも有効な指標(長打率,出塁率など)があることを理解し,フリーエージェント市場で割安に選手を調達し,強いチームをつくることを目指したものだ.しかしこの手法の有効性が多くの球団に認められると優位性はなくなる.次に現れたのは「ビッ

                                                                書評 「アメリカン・ベースボール革命」 - shorebird 進化心理学中心の書評など
                                                              • 日本人の睾丸所持数の年齢別のグラフ …『平均的な日本人は1.02個の睾丸を持ち出生』『中央値は出生から還暦まで2個で、それを過ぎると0個に急減』

                                                                浜尻六彁 🍄🌪️ はまじり ろっか @qlocka 日本人の睾丸所持数を年齢別のグラフにしました。 平均的な日本人は1.02個の睾丸を持って出生し、中年以降になると所持数が徐々に下がっていきます。全年齢平均は0.97個です。 中央値は出生から還暦まで2個で、それを過ぎると0個に急減します。中央値で代表させた日本人全体の睾丸所持数はゼロです pic.twitter.com/EjkqcqciIV

                                                                  日本人の睾丸所持数の年齢別のグラフ …『平均的な日本人は1.02個の睾丸を持ち出生』『中央値は出生から還暦まで2個で、それを過ぎると0個に急減』
                                                                • 千葉 オンライン登録の感染 県統計に計上されず 累計2万5000人 | NHK

                                                                  新型コロナウイルスの自主検査で陽性だった人がオンラインで登録を行う千葉県のシステムで、登録された人数が県内の新たな感染者数として計上されていないことが分かりました。県内の実際の感染者数が発表を大幅に上回っていたとみられる日もあり、感染者数をもとに対策を判断してきた自治体から困惑の声も出ています。 千葉県では、先月から抗原検査キットなどで陽性だった場合、インターネットで登録して医師の診断を受けられる専用サイト「陽性者登録センター」を開設しました。 県は、新たに確認された感染者数を毎日発表していて、今月14日は4600人余りとしていましたが、ここに専用サイトで登録した3300人余りは含まれておらず、東京都の感染者数として計上されていたことが分かりました。 専用サイトは、都内の業者が運営を受託し、都内の医療機関の医師がオンラインで診断を行っていますが、感染を確認した医師は最寄りの保健所に届け出る

                                                                    千葉 オンライン登録の感染 県統計に計上されず 累計2万5000人 | NHK
                                                                  • 行政のオープンデータを集約した「e-Govデータポータル」公開

                                                                      行政のオープンデータを集約した「e-Govデータポータル」公開
                                                                    • 「日本人は多神教だから寛容」通説は本当なのか

                                                                      日本でよく聞かれるのが、キリスト教にせよイスラム教にせよ、「一神教はどうしても不寛容だ」という意見である。それと対になっているのが、「日本は多神教だから寛容だ」という説で、これは床屋談義だけでなく学問的な見解としても論じられることがある。 その発端になったのは、「農耕由来の多神教」と「砂漠由来の一神教」という対比を論じた和辻哲郎である。彼の『風土』論(1935年)は、その後、梅原猛や山折哲雄といった昨今の日本研究者たちにも継承され、欧米の対テロ戦争が始まった後はさらに拡散した。 日本人は寛容なのか?? 日本人のこういう自己理解には、まず統計的な数字を示しておくのがよいかもしれない。2018年に刊行された『現代日本の宗教事情(国内編I)』では、編者の堀江宗正が「世界価値調査」のデータを用いて日本と他国を比較し、その「惨憺たる」結果を示している。指標に選ばれているのは中国、インド、アメリカ、ブ

                                                                        「日本人は多神教だから寛容」通説は本当なのか
                                                                      • 約20種類の感染症 感染者数の推移・全国比較 最新ニュース - NHK

                                                                        全国の感染症の感染状況のデータです。 約20種類の感染症について全国の感染者数推移や都道府県ごとの感染者数をお伝えしています。

                                                                          約20種類の感染症 感染者数の推移・全国比較 最新ニュース - NHK
                                                                        • データ分析をする前に、まず生データを見てみよう - 渋谷駅前で働くデータサイエンティストのブログ

                                                                          先日ですが、旧知の*1Grahamianさんのこんなツイートが話題になっていました。 データ分析をするときシンプルに重要なことは「生のデータを眺める」と「データの分布をグラフにする」ことなんじゃないかと思うんですよね。すぐにクロスとかファネルとかコホートとかやりたくなるんですけど、まずは目の前のデータがどんなものか頭にマッピングさせることが長期的に効いてくる感じ。— Grahamian📊データ分析と機械学習 (@grahamian2317) 2021年1月12日 何を当たり前のことを言っているんだと眉を顰める向きもあるかもしれませんが、これだけデータサイエンスやら機械学習(人工知能)やらが喧伝されている昨今においては、少なからぬ現場で「データはどこかのAPIからバルクでダウンロードしてくるor本番DBから転送してくるだけ」「やってきたデータは中身を見もせずにそのまま統計分析や機械学習など

                                                                            データ分析をする前に、まず生データを見てみよう - 渋谷駅前で働くデータサイエンティストのブログ
                                                                          • 改めて、汎化性能と交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ

                                                                            追記 再現性をチェックする実験を後日実施しています。併せてお読みください。 以前こんな記事を書きました。 この辺の話はとっくの昔に常識になっていると思っていたのですが、昨今様々な「モデル」が提唱されて公の場で喧伝されることが増えてきており、その中には明らかにこれらの記事で指摘されている問題に引っかかっているものがあるようなので、注意喚起も兼ねて改めてブログ記事として書いてみようと思います。 追記 (May 08, 2020) 本文中にも記事公開当初の初稿の時点でいくつか但し書きを入れてありますが、この記事で最も強調したかったことは「時系列データに対して多項式フィッティングを行うという本来あり得ないモデリングのやり方であっても、交差検証を行えば短期的な予測性能(汎化性能)を改善することができる」ということです。データセットにランダムウォークを選択したのは、単に極値が2つ以上ある時系列を生成し

                                                                              改めて、汎化性能と交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ
                                                                            • 8TBのHDDだけ故障率が高い謎――自社利用HDDの調査で分かった「気になる真実」とは

                                                                              Backblazeは、2023年第2四半期の自社データセンターにおけるデータドライブの統計レポートを発表した。 クラウドストレージやクラウドバックアップサービスを提供するBackblazeは2023年8月3日(米国時間)、2023年第2四半期の自社データセンターにおけるデータドライブの統計レポートを発表した。 2023年第2四半期末の時点で、Backblazeは世界中のデータセンターで24万5757台のHDDとSSDを管理していた。そのうち4460台が起動ドライブで、その内訳は3144台がSSD、1316台がHDDだった。同レポートでは、BackBlazeの管理下にある24万1297台のデータドライブに焦点を当て、2023年第2四半期と生涯の故障率を報告した。 2023年第2四半期のハードドライブの故障率 2023年第2四半期では、顧客データの保存に使用される24万1297台のハードドライ

                                                                                8TBのHDDだけ故障率が高い謎――自社利用HDDの調査で分かった「気になる真実」とは
                                                                              • 統計表における機械判読可能なデータ 作成に関する表記方法

                                                                                • タイラー・コーエン「この経済学者が疫学者をどう思ってるかと申しますと」(2020年4月12日)

                                                                                  [Tyler Cowen, “What does this economist think of epidemiologists?” Marginal Revolution, April 12, 2020] このところ,疫学の片鱗に触れる機会がいつもよりも増えてる.理由はみなさんご承知のとおり.ぼくが触れてるのは,疫学分野のほんの隅っこでしかないのは理解してる.今回の話は,べつに疫学への不満をぶちまけるつもりで書いてるわけじゃない.経済学だって,似たような問題に苦しんでいるんだから.ただ,ぼくらに提示されてる主流の疫学モデルに見受けられる限界を少しばかり書き留めておきたい. #1. そうした疫学モデルは,短期の弾力的な変化よりも長期の弾力的な調整の方が強力だという点を十分にわかっていない.短期的には,世間の人たちは対人距離を維持するけれど,長期的には,我が身を守るのにいちばん効果的な対人距

                                                                                    タイラー・コーエン「この経済学者が疫学者をどう思ってるかと申しますと」(2020年4月12日)

                                                                                  新着記事