タグ

ブックマーク / uribo.hatenablog.com (3)

  • 🍭データフレームからランダムにデータを抽出したい - cucumber flesh

    北のマエショリストこと(面識もない私が勝手に呼んでいる) id:WAFkw さんがこんな記事を書いていた。 wafdata.hatenablog.com 手持ちのテーブルから、無作為(ランダム)にサンプルを抽出する(リサンプリング)、という記事。そしてそのレスポンスとして、{dplyr}でこれできるよ、という話(マエショリストさんのやりたいことと違っていたらどうしよう)。自分自身もちょっと前に得た知見なので共有のために書いておく。 data <- data.frame(ID = seq(1, 9999)) head(data) ## ID ## 1 1 ## 2 2 ## 3 3 ## 4 4 ## 5 5 ## 6 6 tail(data) ## ID ## 9994 9994 ## 9995 9995 ## 9996 9996 ## 9997 9997 ## 9998 9998 ##

    🍭データフレームからランダムにデータを抽出したい - cucumber flesh
  • ある日tidyと一緒に: tidyverseは厳しいがとても優しい - cucumber flesh

    この記事はtidyポエムAdvent Calendarの4日目の記事となります。タイトルは釣りです。釣られた人は乙でした。 当のタイトルは「tidyverseは厳しいがとても優しい」です。某ホクソエム氏のようです(個人の意見です)。 uribo.hatenablog.com tidyverseな世界に慣れてきて、つまづきやすいかなという点をまとめました。小ネタ的なものですが、少しでも皆さんの参考になればと思います。言いたいことは、データ型に気をつけろ、ということです。 tibble はじめに言っておくと、私はtibble大好きです。界隈ではtibbleのせいで、tibbleってなんだよ、と言った声も聞こえてくるわけですが、tibbleにはメリットしか感じません。tibble::as_tibble()、みんなtibbleになるといいよ(というのは言い過ぎか)。 まず、tibbleをご存知で

    ある日tidyと一緒に: tidyverseは厳しいがとても優しい - cucumber flesh
  • 🌴{rvest}を使って植物の学名をYListから取得する - cucumber flesh

    一人Rアドベントカレンダーの3日目。何日まで続くかわからないが、@dichika さんを見習って続ける。 今日は仕事の話だ。植物生態学、特に群集データを扱う時のtipsについて書いてみたい。 群集を対象にした調査を行った場合、1種だけが出現した、ということは稀であり、群集内に生育するさまざまな種をデータとして扱う必要がある。その際、種名データは和名で記載されているものを学名にして、さらに単純化のために属名と種小名からなる記号として扱うことがしばしばある。 この時の和名を学名に直す作業を、図鑑を参照しながらちまちまやると時間がかかるし、打ち間違えも発生しやすい(学名は長い)。特に30種とかになると辛い。そのため以前は「BG Plants 和名−学名インデックス(通称YList)」(http://ylist.info) が提供しているcsvファイルから、和名と種名(学名)のマッチングで対応して

    🌴{rvest}を使って植物の学名をYListから取得する - cucumber flesh
  • 1