タグ

ブックマーク / uribo.hatenablog.com (4)

  • 📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010): 4 データの中にゼロがたくさんあるか? - cucumber flesh

    この記事では統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010)で扱われているゼロ過剰問題を取り扱っている。 uribo.hatenablog.com 離散値の整数かならるカウントデータの多くはポアソン分布に従うことが一般的である。しかし、ある生息地における生物の観察数やスポーツにおける試合の得点など、0を多く含むデータが存在する。 そうしたデータについて統計モデルを適用する場合、ポアソン分布や負の二項分布を仮定した一般化線形モデル GLMなどを行うと、ポアソン分布で期待されるよりも過剰(あるいは過少)にデータが観測されることがあり推定がうまくいかないことがある。そのデータのように0の割合が多いデータに対して有効なモデルがゼロ過剰なポアソン分布モデル Zero-inflated Poisson Distribution: ZIPモデルである。 📉 カウン

    📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010): 4 データの中にゼロがたくさんあるか? - cucumber flesh
  • ある日tidyと一緒に: tidyverseは厳しいがとても優しい - cucumber flesh

    この記事はtidyポエムAdvent Calendarの4日目の記事となります。タイトルは釣りです。釣られた人は乙でした。 当のタイトルは「tidyverseは厳しいがとても優しい」です。某ホクソエム氏のようです(個人の意見です)。 uribo.hatenablog.com tidyverseな世界に慣れてきて、つまづきやすいかなという点をまとめました。小ネタ的なものですが、少しでも皆さんの参考になればと思います。言いたいことは、データ型に気をつけろ、ということです。 tibble はじめに言っておくと、私はtibble大好きです。界隈ではtibbleのせいで、tibbleってなんだよ、と言った声も聞こえてくるわけですが、tibbleにはメリットしか感じません。tibble::as_tibble()、みんなtibbleになるといいよ(というのは言い過ぎか)。 まず、tibbleをご存知で

    ある日tidyと一緒に: tidyverseは厳しいがとても優しい - cucumber flesh
  • 中級者向けggplot2でこんな図が描きたい - 地図編 - cucumber flesh

    どーも。ggplot2は空手の一種として知られているので(要出典)普段の稽古が欠かせまん。今年を振り返り、ggplot2での作図について、いくつかの知見を共有します(書いている余裕がなかったんや...) library(magrittr) library(jpndistrict) ## Loading required package: jpmesh ## This package provide map data is based on the Digital Map ## 25000(Map Image) published by Geospatial Information Authorityof ## Japan (Approval No.603FY2017 information usage ## <http://www.gsi.go.jp>) library(sf) ## Li

    中級者向けggplot2でこんな図が描きたい - 地図編 - cucumber flesh
  • ⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh

    RStudioのチーフサイエンティスト、Hadley Wickham(ハドリー)が2月に行った講演のビデオがYouTubeに上がっていたので観た。 "Making Data Analysis Easier"というタイトルでの発表(スライドでは"Managing many models"になっているけど)で、ハドリー自身が考えている、データサイエンスに必要な可視化やモデリングを効率的に行うための手法について、彼の開発してきたパッケージを中心に説明している。 www.youtube.com 分かりやすく、具体例を交えた内容なので、是非YouTubeの動画を観てもらうのが良いと思うが、自分の頭を整理するためにもここでまとめておく。なお、発表スライドはクリエイティブ・コモンズライセンス3.0のもと、表示・非営利のラインセンスで再利用可能となっている。 Hadley Wickham (Chief S

    ⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh
  • 1