タグ

統計学に関するatm_09_tdのブックマーク (72)

  • 「高等学校における「情報II」のためのデータサイエンス・データ解析入門」|統計学習の指導のために(先生向け)

    ※1 Pythonコードは、Google Colaboratoryのジュピター・ノートブックの環境で実行することにより動作します。 詳細は、教材の「参考テキスト」p.159~を参照ください。 ※2「clst.csv」のデータの一部については、自然科学研究機構 国立天文台より2次利用の許可を得て掲載しております。 出典:国立天文台編「理科年表2021」,丸善出版(2020)

  • 異常検知入門と手法まとめ - Qiita

    異常検知について勉強したのでまとめておきます。 参考文献 下記文献を大いに参考にさせていただきました: [1] Ruff, Lukas, et al. "A Unifying Review of Deep and Shallow Anomaly Detection." arXiv preprint arXiv:2009.11732 (2020). [2] 井手. "入門 機械学習による異常検知―Rによる実践ガイド" コロナ社(2015) [3] 井手,杉山. "異常検知と変化検知 (機械学習プロフェッショナルシリーズ)" 講談社サイエンティフィク(2015) [4] 比戸. "異常検知入門" Jubatus Casual Talks #2(2013) [5] Pang, Guansong, et al. "Deep learning for anomaly detection: A rev

    異常検知入門と手法まとめ - Qiita
  • 大塚淳『統計学を哲学する』について - mercbeinpのブログ

    この記事は、大塚淳『統計学を哲学する』(2020年、名古屋大学出版会)についての記事である。特に、哲学の観点から、書における認識論への言及について論じる。 先に自己紹介をしておこう。私は数年前に大学院の修士課程を修了し、それ以降は特に哲学とは関係のない仕事をしている。大学では、学部・院を通して分析的認識論を勉強・研究していた。伝統的・非形式的な認識論のほうが詳しいと思っているが、形式認識論(特に確率を用いるベイズ認識論)についても関心を持っていて、博士課程に進んでいたらベイズ認識論を中心にした研究を行おうとも思っていた。数年前の記事になるが、私がどのようなトピックを学んでいたかは、現代の分析的認識論を紹介したこのブログ記事を読むとより把握できると思う。 踏まえて、以下の文章は主に哲学の視点からみたものになり、記述の大半は哲学的認識論に割かれている。帰納推論や因果推論などのトピックについて

    大塚淳『統計学を哲学する』について - mercbeinpのブログ
  • 伝統的な統計学は別に最強じゃない | 遊ぶエンジニア

    統計学などで「95%の確率で正しい」などという言葉をよく聞くと思う。 この95%の精度を体感いただこう。以下の文章を読んでほしい。 宮沢賢治の「銀河鉄道の夜」の冒頭である。 「ではみなさんは、そういうふうに川だと云れたり、乳の流れたあとだと云われたりしていたこのぼんやりと白いものがほんとうは何かご承知ですか。」先生は、黒板に吊るした大きな黒い星座の図の、上から下へ白くけぶった銀河帯のようなところを指さしながら、みんなに問いをかけました。 以下はどうでしょうか? 「ではみなさんに、そういうふうに川だと云れたけ、乳の流れたあとだと云われたりしていけこのぼんやりと白いあのがほんとうは何かご承知ですか。」先生は、黒板に吊るこた大きな黒い星座の図の、上なら下へ白くけぶった銀河帯のよほなところを指さしながら、みんなに問いをかけました。 139文字の5%とは6.95なので、7文字の間違いをいれてみた。

    伝統的な統計学は別に最強じゃない | 遊ぶエンジニア
  • データ分析の不思議、シンプソンのパラドックスを統計的因果推論から考える - Unboundedly

    今回は統計学で有名な「シンプソンのパラドックス」という問題について紹介したいと思います。簡単にいえば、同じデータでも分析の仕方によって全く矛盾したように見える結果が得られるというお話です。データだけ見ると、信じがたいような直感に反する現象がおきるので頭の体操としてとても面白いです。 あまりに有名なパラドックスであるため日語でも解説がいくつか出ていますが、人によって言っていることが違っていたり、不完全であったりします。多くはシンプソンによるオリジナルの論文を読んでないことから起因するのだと思います。 例えばシンプソンのパラドックスを交絡の問題だと捉える人は多いですが、個人的に不完全だと思います(間違いではない)。このように誤解が広まった歴史的背景も含めて、詳しく書いていきたいと思います。ちなみにアニメのシンプソンズはこの問題と全く無関係です。 そもそもシンプソンのパラドックスとは? シンプ

    データ分析の不思議、シンプソンのパラドックスを統計的因果推論から考える - Unboundedly
  • 信頼区間を正しく理解してますか?確信区間との違いって何ですか? - Qiita

    信頼区間 (Confidence interval)は、統計学を習う際、最初の方に出てくる概念ですが、名前もあってその解釈にはしばしば誤解が生じます。直感的な解釈はベイズ統計学を用いた確信区間 (Credible interval)の方がふさわしいのですが、その違いがわからない、そもそも確信区間とか知らない、という人も多いのではないでしょうか。 この記事では、統計学を2分する頻度論者 (Frequentist) とベイジアン (Bayesian) の立場を今一度明らかにし、信頼区間と確信区間の違いを理解し、データの統計学的解析に役立てたいと思います。 正しい信頼区間 (Confidence interval) の考え方 データのバラツキを表現する方法は、分散 (Variance)、標準偏差 (Standard deviation)など様々あり、信頼区間 (Confidence interv

    信頼区間を正しく理解してますか?確信区間との違いって何ですか? - Qiita
  • 書評:『ダメな統計学』 悲惨なほど完全なる手引書 | Webシステム開発/教育ソリューションのタイムインターメディア

    題名:ダメな統計学 悲惨なほど完全なる手引書 アレックス・ラインハート 著  西原 史暁 訳 A5、185項、体2200円 2017年1月20日 発行 勁草書房 https://www.statisticsdonewrong.com/ (オリジナルサイト) http://id.fnshr.info/2017/01/20/sdw-trans-publ/ (日語サイト) 最近、世の中、統計学が流行っているようである。 確かに昔と違って、大量のデータもさくっと処理できるだけの計算機パワーがあり、様々な分析、予想、判断などに実際に利用できるようになった。 そして、ビッグデータ、人工知能などのためには、統計学は当然知っていなければいけない。 ということで、統計学を勉強と思ってではなく、世の中、どう考えてもオカシイ、誤った統計の利用、誤用、乱用、悪用が目に付いていたところでこのが出版されたので読

    書評:『ダメな統計学』 悲惨なほど完全なる手引書 | Webシステム開発/教育ソリューションのタイムインターメディア
  • 1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ - ぴよぴよ.py

    前回の「ゲームプログラマからデータサイエンティストに転職しました」 の記事でもお話したとおり、5月からデータ解析する人になりました。 とはいえ、データ解析に関しては未経験。 少しでも不安を減らすために、4月の有給消化期間は統計学のお勉強しました。 今回はおすすめしてもらった中で読んで良かったの紹介、そして読んだの簡単なまとめを書いて行きたいと思います。 ※前提: 4月時点の自分の知識に関して 自分は大学は情報科学を専攻していたが、難しい数式は苦手 統計学は1コマ分受講していたが、単語を覚えている程度でかなりあやうい まず一番最初に読みたい 「完全独習 統計学入門」 「簡単に統計学の全体像がつかめる入門書はないか」とTwitter相談したら、こちらのを数名の方が薦めて下さった。 完全独習 統計学入門 作者: 小島寛之出版社/メーカー: ダイヤモンド社発売日: 2006/09/28メ

    1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ - ぴよぴよ.py
  • 野球好きが統計学を覚える為の学習フローを作ってみました - Lean Baseball

    こんにちは.野球(とグルメ)の人です.*1 ビックデータや統計学が相変わらずアツい話題になっている中,野球好きとデータ好きをうならせるこんなが出版されました. [プロ野球でわかる! ]はじめての統計学 作者: 株式会社DELTA,佐藤文彦,student,岡田友輔出版社/メーカー: 技術評論社発売日: 2017/03/14メディア: 単行(ソフトカバー)この商品を含むブログを見る この,早速読ませてもらってとても良い!感銘を受けた!!という感じなのですが, そもそも世の中に野球統計学(セイバーメトリクス)のが増えてきた (野球好きでも)初心者がいきなり読んだら辛いもあるぞ! ???「ワイも野球データを集めて分析したいンゴ」 …などなど,クエスチョンやテーマができたので, 今まで学んだ・実践した野球統計学の学び方・・データを整理するのにいい機会だ! …ということで, レベル別の

    野球好きが統計学を覚える為の学習フローを作ってみました - Lean Baseball
  • 統計: はじめての推定 - CUBE SUGAR CONTAINER

    今回は、統計における重要な手法である「推定」について書いてみることにする。 推定は、現実世界の様々な場面で使われている。 例えば、選挙で開票作業が始まった直後に当選確実がニュースで流れることがある。 一体どうしてそんなことが分かるのか、不思議に思ったことがあるかもしれない。 実は、これには正に統計における推定が使われている。 ただ、推定のやり方は多種多様なので一つのエントリで書きつくすことは難しい。 それをすると、むしろ分かりにくくなってしまうと思う。 そこで、最初は推定の基的な考え方と共に最もシンプルな推定について書くことにする。 続きとなる別のパターンについては、おいおい書いていくと思う。 推定の説明に入る前に、いくつか前提となる知識について書いていく。 記述統計と推測統計 一口に統計学といっても、実は古典的な統計には大きく分けて二つのジャンルがある。 それが記述統計と推測統計という

  • 実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ

    気が付いたら僕がデータ分析業界に身を置くようになってそろそろ5年近くになるんですね*1。この5年間の間に色々勉強したり業界内で見聞してきた経験をもとに、「実務の現場においてモデリングを行う上での注意点」についてだらだらと書いてみようと思います。 と言うのも、色々な現場で様々なモデリング(統計学的にせよ機械学習的にせよ)が行われていることが伝わってくるようになった一方で、ともすれば「え?こんな基礎的なポイントも守ってないの?」みたいなとんでもないモデリングがまかり通る現場があると愚痴る声を業界内で聞くことが少なくないので。自戒の意も込めて重要なポイントを備忘録としてブログ記事にまとめておくのも有益かなと思った次第です。 この記事では手法選択(線形・一般化線形・ベイズ+MCMC・識別関数・識別モデル・生成モデル・樹木モデル・Deep Learning etc.)の話題は割愛しました。一般に、モ

    実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ
  • オンラインで無料で読める統計書プラス32冊|Colorless Green Ideas

    はじめに 数年前に「オンラインで無料で読める統計書22冊」という記事を書いた。タイトルにあるように、オンラインで無料で読める統計書として、入門者向けから高度なものまで合わせて22冊紹介した。 その後、オンラインで無料で読める統計書をさらに発掘したので、ここに紹介しておきたい。今回新しく紹介するのは、32冊である。「オンラインで無料で読める統計書22冊」と合わせてご覧いただきたい。 統計学の入門 まずは、統計学を始めて学ぶ人に向けて書かれた書籍を紹介しよう。 村上正康・安田正實.(1989). 『統計学演習』東京:培風館. 統計学を始めて学ぶ人のための入門書。 記述統計、確率分布、推定・検定の基礎、簡単な線形回帰といった内容を扱っている。入門書としてはオーソドックスなところを扱っていると言えよう。 中澤港.(2003).『Rによる統計解析の基礎』東京:ピアソン・エデュケーション. 統計学を始

    オンラインで無料で読める統計書プラス32冊|Colorless Green Ideas
  • Pythonで統計学を学ぶメリットは?勉強の手順も解説

    Pythonで統計学を勉強するメリット 統計学を学ぶにあたって、Pythonを利用するメリットを確認しておきましょう。 近年の統計業務は、Pythonを使ったアプリケーションで行うケースが増えており、Web上のノウハウや書籍が充実しています。これらを活用することで、統計学の知識が乏しい状態でも、Pythonを切り口として学習を進めやすくなっています。 煩雑な計算を省略できる Pythonは科学計算処理に必要なライブラリが充実しています。Pythonのライブラリには、統計で用いられる専門的な計算式が内包されており、基礎的な考え方さえ理解していれば、具体的な計算式を知らずとも実践的な統計を実行可能です。もちろん読書や座学でも学習は可能ですが、Pythonを利用することで「煩雑な計算の理解」に時間を取られずにすむため「統計を使ってできること」をダイレクトに理解し易くなるでしょう。 データが簡単に

    Pythonで統計学を学ぶメリットは?勉強の手順も解説
  • ソフトウェアのための統計学 – 後編 | POSTD

    次のステップ 統計学とエンジニアリングを統合する方法はたくさんあるので、うまく始められるように幾つかご紹介しましょう。 計測ツール 統計学の基に焦点を当ててきましたが、そもそも、どうやって関連するデータセットを生成すればいいのでしょうか? 私たちの答えは、コンポーネントの計測ツールを構造化することです。しかるべき所に正しいフックを使用すれば、私たちが問題をデバッグするために残業しても、パフォーマンスを向上させるために予備のサイクルがある時でも、データは必要な時に得られます。 PayPalのPythonサービスの堅牢性の多くは、信頼性の高いリモートロギング基盤によるものです。そしてこれは rsyslog と似ていますが、より強力なものです。それでも、データを上流に送信する前に、このプロセスは内部の指標を収集する必要があります。メジャーリリースがもう間近なので、2つのオープンソースプロジェク

    ソフトウェアのための統計学 – 後編 | POSTD
  • ソフトウェアのための統計学 – 前編 | POSTD

    ソフトウェア開発の原点は可能性の追求であり、不可能を可能にすることです。ひとたび ソフトウェア が開発されると、エンジニアは次に 程度 という課題に向き合うことになります。企業向けのソフトウェアであれば、「速度はどれくらいか」と頻繁に問われ、「信頼性はどの程度か」という点が重視されます。 ソフトウェアのパフォーマンスに関する質問に答え、さらには正しい内容を語る上で欠かせないのが統計学です。 とはいえ、統計学について多くを語れる開発者はそうはいません。まさに数学と同じで、一般的なプロジェクトで統計学が話題に上ることなどないのです。では、新規にコーディングをしたり、古いコードのメンテナンスをしたりする合間に、手が空くのは誰でしょうか? エンジニアの方は、ぜひ時間を作ってください。近頃は、15分でも貴重な時間と言えるでしょうから、 こちらの記事をブックマークに追加 しておいてもいいでしょう。とに

    ソフトウェアのための統計学 – 前編 | POSTD
  • 15分でわかる(範囲の)ベイズ統計学

    15分でわかる(範囲の)ベイズ統計学 1. 15分でわかる(範囲の)ベイズ統計学 数学カフェ 第10回発表資料 2016/1/31 @kenmatsu4 2. MASAKARI Come On! щ(゜ロ゜щ) みんなで勉強しましょう https://twitter.com/_inundata/status/616658949761302528 3. 自己紹介: @kenmatsu4 ・Facebookページ https://www.facebook.com/matsukenbook ・Twitterアカウント @kenmatsu4 ・Qiitaでブログを書いています(統計、機械学習Python等) http://qiita.com/kenmatsu4 (5400 contributionを超えました!) ・趣味 - バンドでベースを弾いたりしています。 - 主に東南アジアへバックパック

    15分でわかる(範囲の)ベイズ統計学
  • 【統計学】尤度って何?をグラフィカルに説明してみる。 - Qiita

    統計学や機械学習をを勉強していると「尤度」という概念に出会います。まず読めないというコメントをいくつかいただきましたが、「尤度(ゆうど)」です。「尤もらしい(もっともらしい)」の「尤」ですね。犬 じゃありませんw 確率関数や確率密度関数を理解していれば数式的にはこの尤度を処理できると思うのですが、少し直感的な理解のためにグラフィカルに解説を試みたいと思います。 コードの全文はGithub( https://github.com/matsuken92/Qiita_Contents/blob/master/General/Likelihood.ipynb )にも置いてあります。 正規分布を例にとって 正規分布の確率密度関数は f(x)={1 \over \sqrt{2\pi\sigma^{2}}} \exp \left(-{1 \over 2}{(x-\mu)^2 \over \sigma^2

    【統計学】尤度って何?をグラフィカルに説明してみる。 - Qiita
  • 【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita

    統計をこれから学ぼうという方にとって、非常に重要な概念ですが理解が難しいものに「標準偏差」があると思います。「平均」くらいまでは馴染みもあるし、「わかるわかるー」という感じと思いますが、突如現れる「標準偏差」 の壁。結構、この辺りで、「数学無理だー」って打ちのめされた方もいるのではないでしょうか。 先にグラフのイメージを掲載すると、下記の赤い線の長さが「標準偏差」です。なぜこの長さが標準偏差なのか、ということも解き明かしていきます。 (code is here) 記事では数学が得意でない方にもわかるように1から標準偏差とはなにか、を説明してみようという記事です。 数式はわかるけど、イマイチ「標準偏差」の意味わからんという方にも直感的な理解がしてもらえるような説明もしていきますので、ぜひご覧ください。 (※ この記事では標準偏差の分母に $n$を使用しています。$n-1$を使用するケースも

    【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita
  • Rでデータ分析・統計学・機械学習・データマイニングを学ぶならこの10冊で(2015年2月版) - 渋谷駅前で働くデータサイエンティストのブログ

    今週はまともなデータ分析やら統計学やら機械学習やらの記事を書くのが面倒になったので*1、しばらくやってなかったお薦め書籍リストでも書こうかと思います。 今回まとめるリストは、ズバリ「Rでデータサイエンス・統計学・機械学習を学ぶための10冊」。Rと言えばこのブログのメイン言語なので特に説明は要さないでしょう。去年1年間は拙著も含めてR絡みのが大豊作で、以前のお薦め書籍リストに比べるとRの良書が増えたという部分もあり、そう言えばRだけでリスト作れるなぁと思ったのでした。 というわけで、主に僕が持っているor読んだことがあるを中心にお薦めリストをまとめてみました。いつも通り独断と偏見まみれなので、他にも良いRは沢山ありますよーという旨予めお断りしておきます。 そうそう、先に書いておきますがこのリストは中級者向けです。でも初学者向けに良いRのってあるのかなぁ。。。初学者はまずはExcel

    Rでデータ分析・統計学・機械学習・データマイニングを学ぶならこの10冊で(2015年2月版) - 渋谷駅前で働くデータサイエンティストのブログ
  • なぜ統計学がビジネスの 意思決定において大事なのか?

    「第2回CodeSCOREによる、エンジニアの実務スキルの可視化と、その周辺の知見共有セミナー」における講演内容 https://codescore.codeiq.jp/seminar

    なぜ統計学がビジネスの 意思決定において大事なのか?