タグ

統計に関するDiomedeidaeのブックマーク (84)

  • リーディングDAT | 統計数理研究所 統計思考院

    思考院トップ 統計思考院の事業活動 リーディングDAT 2022年度 リーディングDAT無料動画 思考院トップ 統計思考院の事業活動 統計教育動画配信 リーディングDAT無料動画 情報・システム研究機構 データサイエンス高度人材育成プログラム リーディングDAT無料動画 ※2023/6/30に「3. 因果と相関」の一部の図を差し替えた動画を公開しました。内容には変更ありません。 リーディングDAT講座の動画公開について ここでは、2021年度リーディングDAT L-A講座(4日間)の前半2日間分、および、関連して作成された補助動画を無料で公開しています。後半2日間分は有料の講座として開催中で、当面は公開の予定はありません。講義の特徴などについてはこちら(所外 YouTube)の動画をご覧ください。 ・動画中で言及されている「付録」については各講師の判断で一部のみPDFで提供します。また、も

  • 企業で働くデータサイエンティストになって10年が経ちました - 渋谷駅前で働くデータサイエンティストのブログ

    TL;DR 10年前の落ちこぼれポスドクが今は立派なデータサイエンティストになれたっぽいので、ポエムを書きました。業界事情の振り返りと、仕事の話、知名度が上がることの良し悪し、キャリアの話などを綴っています。 時が経つのは早いもので、落ちこぼれポスドクだった僕が企業転職をし、データサイエンティストになって今日で10年が経ちました。自分の中ではデータサイエンティストに転じたのはついこの前のことのように思える一方で、あまりにも多くの様々な体験をしてきたせいか「もっと時間が経っている気がするのにまだ10年しか経っていないのか」という気もしています。 今でも時々SNSで話題に上る回顧録を書いたのが3年前のことなんですが、それ以降は相変わらず同じく現職に留まり続けていることもあり、有体に言えばそれほど大きく変わったことはありません。なので、新たに3年間の振り返りを書くのではなく、回顧録で書き漏らした

    企業で働くデータサイエンティストになって10年が経ちました - 渋谷駅前で働くデータサイエンティストのブログ
  • Cute.Guides: ★「動物の行動研究」入門: はじめに

    動物の行動に対する「なぜ」に対する答え方は、4通りあります。 1)機能 その行動にはどのような意味(価値)があるのか 2)機構 その行動は、どのような仕組みによって生じているのか 3)発達 その行動は、発達過程(生まれてから死ぬまで)を通してどのように獲得されたのか 4)進化 その行動は、進化の過程を通してどのように獲得されたのか この考えはオランダの動物行動学者ニコ・ティンバーゲンによって提唱されたことから、 ティンバーゲンの「4つのなぜ」と呼ばれています。 例として、「ホタルはなぜ光るの?」と問われたとしましょう。 ティンバーゲンの「4つのなぜ」の視点では、 1)機能 オスがメスを呼ぶ、求愛のため 2)機構 ホタル体内に存在するルシフェリンという化学物質が酵素ルシフェラーゼによって 分解された際に放出されるエネルギーが光になるため 3)発達 ホタルは生まれる前(卵の時)から発光器官を持

  • 京都大学、因果推論の手法と理論を学べる講座が無料に 臨床統計学の講師が担当 | Ledge.ai

    サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

    京都大学、因果推論の手法と理論を学べる講座が無料に 臨床統計学の講師が担当 | Ledge.ai
    Diomedeidae
    Diomedeidae 2021/11/12
    岩波DSに載っているような内容をゴリゴリ学べるのかと思ったらそうでもなかった(Rubin因果はあるけど)
  • Rグラフィックスの文字化け問題中間報告 (2021年版) - ill-identified diary

    概要 去年書いた話のその後の更新について整理した. おまえはもうRのグラフの日語表示に悩まない (各OS対応) - ill-identified diary あとこっちのスライドも閲覧数が少しづつ増えてるようなので Mac でも Windows でも, PNG でも PDF でもRのグラフに好きなフォントで日語を表示したい (2020年最終版)/Display-CJK-Font-in-Any-Gpraphic-Device-and-Platform-2020 - Speaker Deck 去年の話の直後にいろいろと大きな環境変化あった 改めて変更点と残る問題点をここでまとめる 当は不具合を潰してから書きたかったが思ったより時間がかかりそうなので「中間報告」 以降の記述のほとんどはこれまでネット上のどこかで断片的に書いていた話で, 今回はそれらを一箇所にまとめただけ tikz について

    Rグラフィックスの文字化け問題中間報告 (2021年版) - ill-identified diary
  • GitHub - Riku1113/julia_tutorial

    資料はJulia言語初心者向けのチュートリアルです。既にPythonなどを勉強したことのある方の方が理解は速いかと思いますが、必須ではありません。一応プログラミング初学者の方にもわかるようには書いているつもりです。PythonやRをはじめとした様々な言語に関しては巷に入門書があふれていますが、開発されて間もない言語だということもありJuliaに関しては日語のチュートリアル少ないため、とりあえず書いてみることにしました。もし間違いなどあればご指摘ください。 Juliaの特徴としては Pythonのように書けてCのように早い (ただし書き方のコツをつかまないと真の高速化はできなかったりする) 数値計算、機械学習、統計、データ解析なども得意 数式をきれいに書くことができる (例. 2Xを2*Xではなく、2Xと書ける) といったことが挙げられ、最近流行りつつある言語になっています。実際、非常に

    GitHub - Riku1113/julia_tutorial
  • 計算機統計学・ベイズ統計学周辺でのお勧めの教科書10冊 - Qiita

    はじめに 千葉大学/Nospareの米倉です.今回は僕が専門にしている計算機統計学・ベイズ統計学周辺で僕が勝手にお勧めだと思う教科書を10冊簡単なコメント付きで紹介したいと思います.初学者向けといより,修士・博士課程位のレベルのが多いので,ややプロ向けです. お勧めのプログラミング言語 僕は普段Julia言語を用いています.特徴は非常に高速なのと,可読性の高さでしょうか.個人的にはPythonやRより優れていると感じていて,僕の周りの専門家でも使っている人が多いです. Robert and Casella "Monte Carlo Statistical Methods" この分野のバイブルと言えばバイブルみたいな感じですが,そう呼ぶにはちょっと頼りない感じもします.けどモンテカルロ法に興味がある人はマストバイです.色々な種類のモンテカルロ法が網羅的に紹介されています. Efron and

    計算機統計学・ベイズ統計学周辺でのお勧めの教科書10冊 - Qiita
  • OSF

  • 日心の再現性シンポのスライドをアップしました。 | Sunny side up!

    この記事は、Open and Reproducible Science Advent Calendar 2020 の6日目の記事です。 日心理学会第84回大会(オンライン)において、「再現可能な心理学研究入門」というシンポジウムが行われました。そこで僕も登壇させてもらったのですが、そのショートバージョンを記事にしようという手抜き記事です。 なお、フルバージョン及び動画はこちらのOSFにアップされていますので、興味がある方はそちらもどうぞ。 以下、長いので特に読まなくていいです。 このシンポジウムで僕がいいたかったのことは2つあって(しかも独立している)、そのうちの1つが上のスライドです。 統計分析における再現性問題は、論理の問題と信用の問題の2つが絡み合っていて、それぞれ分けて考えたほうがいいよね、ということでした。これ自体は特別新しいメッセージではないですが、いろんな現場を眺めてて、ま

  • OSF

  • 可視化や統計でデータに『恣意的なストーリーを語らせる』16の闇の魔術【bad charts】 - Qiita

    闇の魔術に対する防衛術 Advent Calendar 2020の三日目 はじめに データの可視化は非常に難しい。 まずデータの抽出が難しい ・データソースごとの整合性が取れているか ・取得したデータとソースデータに欠損が生じていないか ・SQL文を実行したサマリの結果が部分的に抜け落ちていないか。 その確認は時間的にも精神的にも苦痛。 しかし、苦労して抽出したデータも使い方で全くの無駄になる その例として「可視化や統計」部分に着目してお話をしようと考えた。 データの背景を知らない人には、データ可視化が歩み寄る手段になるし、伝えたい事をインパクトを伴って伝えられるなど非常にメリットである。 ※ただし 「可視化」の使い方によっては誤った理解をさせることも可能。 伝えたい事だけを正しいように見せる方法もあり、 可視化に詳しくない人に誤解を与えて自分の主張を通すこともできるかもしれない。 これは

    可視化や統計でデータに『恣意的なストーリーを語らせる』16の闇の魔術【bad charts】 - Qiita
    Diomedeidae
    Diomedeidae 2020/12/04
    闇の魔術こえー!!!!
  • 回帰分析における「調整変数」の選び方:実践編 - Unboundedly

    回帰分析を用いて「●●の効果を推定する」ことに取り組んだことがある人は多いのでは無いかと思います。 回帰モデルには「調整変数」として、年齢・性別・教育歴・(医学研究の場合は)既往歴などなど様々な要因を投入して、その影響を"補正"しますよね。 今回は、これらの「調整変数」をそもそもどのように選べばいいのか、その実践的な考え方についてまとめます。 ステップワイズつかって選べばいいんでしょう? アウトカム/曝露因子と有意に関連しているものを選べばいいんでしょう? とにかくたくさん調整すればするほど良いのでしょう? 調整して推定値が大きく変わるものを使えばいいのでしょう? はいはいドメイン知識、DAGを書くんでしょう? と思った人は参考になるかもしれません。 なお、記事は以下の論文の内容をもとに構成されています。 そもそも「調整」するとはなにか? 教科書的な正解はDAGを書くこと 調整変数選択の

    回帰分析における「調整変数」の選び方:実践編 - Unboundedly
    Diomedeidae
    Diomedeidae 2020/11/11
    因果推論ベースで考える回帰分析の変数選択。
  • 「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary

    この文章は pandoc-hateblo で tex ファイルから変換しています. PDF 版はこちら 2021/10/15 追記: 後半のベイジアンブートストラップに関する解説はこちらのほうがおそらく正確です ill-identified.hatenablog.com 概要挑発的なタイトルに見えるかも知れないが, 私はしらふだしこれから始めるのは真面目な話だ — 正直に言えばSEOとか気にしてもっと挑発的なタイトルにしようかなどと迷ったりはしたが. 「全数調査できれば標抽出の誤差はなくなるのだから, 仮説検定は不要だ」という主張を見かけた. いろいろと調べた結果, この問題を厳密に説明しようとすると最近の教科書には載ってない話題や視点が必要なことが分かった. ネット上でも勘違いしている or よく分かってなさそうな人をこれまで何度か見かけたので, これを機に当初の質問の回答のみならず関

    「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary
  • 魔法の加速法 · julia について

    意外に知られていない, 加速法ってやつについてちょろっと書いとこう. ほんのわずかな計算コストでより良い情報を引き出せる可能性が結構高いオトクな技法で、そういう意味でまあ魔法みたいなもんだな. 知っておいて損はないと思うぞ. で、加速法とは何かっつうと、収束する 1 数列をもとにして 「もっと速く収束する数列を作る」 数学的な方法、っつうことになる. そして「計算なり観測なり実験なりを進めて、収束していると期待される数字の列がデータとして得られるんだ.この収束先が求めたい値なんだ」 という、収束先がわからない状況が、応用として想定されるシチュエーションだ. で、そのまま計算なりを進めるよりも、手元に既にあるデータを加速法で変換したほうが低コストでより良い収束先の近似値が得られるかもよ? というのが加速法の使い方、ということになる. そして実は、加速法ってのはたくさんある 2 んだけど、ここ

    魔法の加速法 · julia について
  • [R][Stan]マルコフ連鎖モンテカルロ法の実践ガイド2: ランクプロット他 - ill-identified diary

    概要A. Vehtari, Gelman, Simpson, Carpenter, & Bürkner (2020)で提案されているマルコフ連鎖モンテカルロ法(MCMC)の収束確認方法を紹介する. これらはや有効サンプルサイズ(ESS)といった従来よく使われた方法の問題点を解消したものである. 特に重要な, 以下の概念の使い方を紹介する. 正規化ランクと中央値まわりの畳み込み bulk-ESSとtail-ESS ランクプロットを始めとする, 上記の視覚化 今回紹介する方法の多くはbayesplotパッケージで用意されている. これは去年Tokyo.Rの5分間LTやるために書いたものの続きである.ill-identified.hatenablog.com 2021/4/7 追記: この論文は Bayesian Analysis 誌にアクセプトされたらしい (DOI: 10.1214/20-B

    [R][Stan]マルコフ連鎖モンテカルロ法の実践ガイド2: ランクプロット他 - ill-identified diary
  • タダで学べるデータサイエンス名著5冊 【日本書は高額でも英語ができれば怖くない】 - Qiita

    この時期だからこそ自学しよう 海外って太っ腹な組織が多いのか、無料で読める専門書がすごく多い。 これ系のまとめ記事は他にもありますが、 翻訳済の日と、原著を並べて表示していきたいと思います。 特にデータサイエンス分野に限って紹介。 お高いあの名著も実は原著なら無料かも? (2020年5月時点) 続編、データサイエンスの名大学講座 を書きました (2020年8月) 1冊目 邦題 : 統計的学習の基礎(1万5千円) 俗に言う「カステラ」です。 日では2014年に翻訳されましたが、原著は2001年と今から約20年前に出版されました。 内容からしても、当時は体系的に理論学習ができる刷新的な一冊だったのでしょう。 まさに「アルゴリズム・理論の辞書」。 年代的に古い感じはしますが、基礎はいつだって大切です。 数字に強くないと絶対読み切れない。。。 原著 : The Elements of S

    タダで学べるデータサイエンス名著5冊 【日本書は高額でも英語ができれば怖くない】 - Qiita
    Diomedeidae
    Diomedeidae 2020/05/08
    BDAも英語版が無償公開されてるよ。http://www.stat.columbia.edu/~gelman/book/
  • 『「数理科学を使えば統計の”主義”を争う必要ない」という主張について検討する』

    ・はじめに 統計学の歴史では、頻度主義とベイズ主義という異なる立場の方法が存在し、違いに論争を繰り広げてきました。しかし、近年の統計学者の中には「現代の統計学は数理的な方法に基づいているから、主義の争いは解決した」と考える人もいるようです(この立場のことを、この記事では便宜的に「統計数理による主義不要論」と呼ぶことにします)。この記事では、「統計数理による主義不要論」に対して私なりの反論を考えてみることにします。論点は、以下の3つです。 1.     「“数理的な方法”を使っても、主義の争いが解決しない」ということを示唆する事実が存在する 2.     頻度主義とベイズ主義の論争を「どちらの方法が正しいか」という争いとして捉えると論争の全体像を見誤る 3.     WAICに代表される現代ベイズ法の意義は、「数理によって主義の争いを解決した」のではなく「仮にあなたが頻度主義的な価値観を重視

    『「数理科学を使えば統計の”主義”を争う必要ない」という主張について検討する』
    Diomedeidae
    Diomedeidae 2020/04/29
    興味深い。渡辺澄夫さんの解説も聞いてみたい(このような争いは過去になったと仰っていたが)。
  • adehabitatHRのkernelUD関数のパラメータを検討する - Qiita

    adehabitatHR パッケージ内の kernelUD ではさまざまなパラメータを設定してカーネル推定できる。 どのように指定すればいいのか迷うのでその一部にかんするメモを作成した。 基的には adehabitatHR パッケージおよび使い方にかんする pdf の内容に沿っている。 grid カーネル推定するために発生させるグリッドの大きさを指定できる。 小さく指定すれば推定結果がきめ細かくなり、大きく指定すれば推定結果が粗くなる。 ※グリッドが小さすぎると以下のようなエラーが出る(データによる)。 g10<-getverticeshr(ud_g10,95) Error in getverticeshr.estUD(x[[i]], percent, ida = names(x)[i], unin, : The grid is too small to allow the estima

    adehabitatHRのkernelUD関数のパラメータを検討する - Qiita
  • QgisとRで野生動物の追跡結果を解析してみよう

    [DL輪読会]Learning to Simulate Complex Physics with Graph NetworksDeep Learning JP

    QgisとRで野生動物の追跡結果を解析してみよう
  • 全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論 - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) 「データサイエンティスト」の第一次ブーム勃興から6年余り、人工知能ブームに便乗した第二次ブームで人口に膾炙してから3年余り、気が付いたら何やかんや言われながらもデータサイエンティスト及びその類似職が、じわじわと日国内の産業各分野・企業各社に広まりつつあるように僕の目には映ります。 そういう背景がある中で、ここ1年ぐらいの間にそこかしこで目立つようになってきたのが「ゼロからデータサイエンティストを育てたいのだがどうしたら良いか」という相談や議論。割とあるあるなのが「取引先がデータサイエンティストを採用して商談の席に同席させるようになって、彼らがデータサイエンスの知識を駆使してビシバシ突っ込んでくるのだが、こちらにデータサイエンティストがいないので対応できない」みたいなお話。これは実はUSでも同様だと聞くので*1、案外洋の東西を問わない課題なのかもしれま

    全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論 - 渋谷駅前で働くデータサイエンティストのブログ