タグ

dataとRに関するmkawanoのブックマーク (6)

  • Rでお遊び:何かに使えるかも?各都道府県を四角で表示!

    各都道府県を四角で表示する日地図データの紹介です。ggplot2パッケージなどで利用が可能です。 windows 11のR version 4.1.2で確認しています。 日地図データの作成下記コマンドを実行してください。作業フォルダにJpanMiniMap.csvを保存します。 #tidyverseパッケージがなければインストール if(!require("tidyverse", quietly = TRUE)){ install.packages("tidyverse");require("tidyverse") } JpanMiniMap <- tibble( #都道府県名 Pref = c("北海道", "青森県", "岩手県", "宮城県", "福島県", "茨城県", "千葉県", "秋田県", "山形県", "新潟県", "栃木県", "埼玉県", "東京都", "群馬県"

    Rでお遊び:何かに使えるかも?各都道府県を四角で表示!
  • e-Stat APIをRから使う - Technically, technophobic.

    ほぼほぼこの記事に書いてある内容なんですけど、httrでやってみたのでメモ。 e-Stat APIとは 政府統計の総合窓口(e-Stat)で提供している統計データを入手できるAPIです。ユーザ登録してAPIキーを生成すると使えます。 今のところ、以下の種類のAPIが用意されています。形式はXMLとJSONとJSONPがありますが、今回はJSON形式のでやってみるので、jsonが返ってくるリクエストURLを書き添えています。 統計表情報取得(getStatsList):統計表の検索 メタ情報取得(getMetaInfo):統計表のメタ情報を取得 統計データ取得(getStatsData):統計表のデータを取得 データセット登録(postDataset):統計データの取得条件を登録しておける データセット参照(refDataset):登録されている取得条件を参照 データカタログ情報取得(get

    e-Stat APIをRから使う - Technically, technophobic.
  • パッケージユーザーのための機械学習(5):ランダムフォレスト - 渋谷駅前で働くデータサイエンティストのブログ

    (※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) さて、こんな記事をクリスマス・イヴのプレゼントにするのはアレなんですが(笑)、教師あり学習&分類器系では一旦これでシリーズを〆る予定です。 トリを飾るのはランダムフォレスト。アンサンブル学習の代表選手ですね。「ランダムフォレスト最強」とか言っちゃう人が多いらしいんですが*1、そういう人にはぜひ今回(と次回予定の5回分まとめ)の記事を読んでもらいたいなぁと思います。 今回の参考文献もピンクの薄いです。pp.193-197に決定木、バギング、アダブーストの後にランダムフォレストの説明があります。 はじめてのパターン認識 作者: 平井有三出版社/メーカー: 森北出版発売日: 2012/07/31メディア: 単行(ソフトカバー)購入: 1人 クリック: 7回この商品を含むブログ (4件) を見る 他だと、例

    パッケージユーザーのための機械学習(5):ランダムフォレスト - 渋谷駅前で働くデータサイエンティストのブログ
  • 単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ

    一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。 なので、普段はDB上でSQL(というかHiveなど)でサクッと四則演算だけで集計処理を済ませてしまって、その結果だけを表示するようにしておいた方が圧倒的に楽で手っ取り早いはず。多くのBIツールもそういう考えのもとで作られていると思います。 ところがどっこい。世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々あり

    単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ
  • Free e-book on Data Science with R | R-bloggers

    [This article was first published on Revolutions, and kindly contributed to R-bloggers]. (You can report issue about the content on this page here) Want to share your content on R-bloggers? click here if you have a blog, or here if you don't. A new book by Jeffrey Stanton from Syracuse Iniversity School of Information Studies, An Introduction to Data Science, is now available for free download. Th

    Free e-book on Data Science with R | R-bloggers
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • 1