タグ

TIPSとRに関するmyrmecoleonのブックマーク (8)

  • [R] 散布図行列 (corrplot, pairs, GGally)

    データが与えられた時にはまず可視化をします。そのデータがどのような仕組み(メカニズム)で作られてそうなったかを考えるために必須のプロセスです。しかしながら、どんな可視化がベストかははじめの段階では分からず、とにかくプロットしまくることになります。そのとっかかりに僕がよく使うのが散布図行列(scatter matrix,scatter plot matrix)です。 今回は3つほど紹介します。 ●1. {corrplot}パッケージの corrplot()関数 5行目で相関係数行列を作ってそれを渡しておしまいです。相関係数行列の作り方は各自の自由です。上記ではSpearmanの順位相関係数を使っていますがMICとかでもいいと思います。 このcorrplotのデメリットとしましては散布図は表示できない点です。散布図行列と言っておきながらすみません。説明変数が100個以上あるときなどは散布図を描

    [R] 散布図行列 (corrplot, pairs, GGally)
  • 『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊 - 渋谷駅前で働くデータサイエンティストのブログ

    執筆陣12人中8人が直接の知人友人というこの新刊書でございますが。 データサイエンティスト養成読 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus) 作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋武彦,里洋平,和田計也,早川敦士,倉橋一成出版社/メーカー: 技術評論社発売日: 2013/08/08メディア: 大型この商品を含むブログ (4件) を見る もちろん僕も発刊が決まってAmazonに予約ページができた時点でポチりまして、読んでみたところあまりにも内容が素晴らしかったので早速現職場の図書コーナーに持ち込んだ次第です(笑)。ということで、僭越ながら書評など書かせて頂こうかと思います。 ざっくり内容紹介 正直言って、ものすごーーーく網羅的で非常によく出来ています。1ページ目から順に読んでいっても初学

    『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊 - 渋谷駅前で働くデータサイエンティストのブログ
  • Rから利用するオープンデータAPI

    2014年2月4日、和歌山県ICT利活用普及部会 特別シンポジウム 「オープンデータによる地域振興」にて利用したプレゼンテーションです。 Code for Japan の活動について紹介しています。

    Rから利用するオープンデータAPI
    myrmecoleon
    myrmecoleon 2013/07/22
    へえ。RからSPARQL書いてLODデータセット叩けるんだ。便利だな。
  • Rで系列パターンマイニング - sfchaos's blog

    頻出パターンマイニング(Frequent pattern mining)は,頻出するアイテムの組み合わせを抽出する一連の手法を指します.頻出パターンマイニングの代表例として相関ルールのマイニングがありますが,この手法を用いるとPOSデータからビールとおむつを一緒に購入する消費者が多いことなどの知見が得られます. 一方で,頻出パターンマイニングでは,順序性のあるパターンは抽出できません.例えば,ビールを購入した消費者がその後おむつを購入する傾向があることは,頻出パターンマイニングでは分かりません. このように順序性のあるパターンを抽出する手法は,系列パターンマイニング(Sequential pattern mining)と呼ばれており,1995年にIBM研究所のR.AgrawalとR.Srikantによって提唱されました. RのarulesSequencesパッケージを使用すると,系列パター

    Rで系列パターンマイニング - sfchaos's blog
  • Amazon.co.jp: R言語逆引きハンドブック: 石田基広: 本

    Amazon.co.jp: R言語逆引きハンドブック: 石田基広: 本
    myrmecoleon
    myrmecoleon 2012/02/09
    あとでチェックする。
  • Rでのデータの演算と操作

    データの解析や処理を行うためには、データについて、その構造の確認や編集などが必要である場合がある。 1.データの編集 (1)データのサイズの確認 ここでは入力されているデータsales2を用いて説明する。データsales2は2行5列で、データフレーム型で入力されている。 > sales2 Cherry Apple Grape Banana Other A    15    20    25     10    30 B    10    25    20     25    20 次に示すように関数ncol, nrow, dimを用いると、データフレームおよび行列の行数、列数や配列の次元を求めることが可能である。その例を次に示す。  > nrow(sales2) [1] 2 > ncol(sales2) [1] 5 > dim(sales2) [1] 2 5

  • Tsukuba.R#5お疲れ様でした - 糞ネット弁慶

    Tsukuba.R#5 - Tsukuba.R - livedoor Wiki(ウィキ) そんな感じでTsukuba.R#5でした。皆さんお疲れ様でした。 僕のスライドを上げました。 大した時間をかけずともさっと分析できて可視化できるのでRは素晴らしいし、連続変数を扱わない場合はtable関数が神がかっているので積極的に使いましょう。あと破滅的に時間を潰した挙げ句「Rのgrepにperl互換あるじゃん」とか言われて泣きそうになったのは内緒。時刻変換の部分はid:Rion778に教えてもらって助かりました。ここに感謝します。 id:yag_yas 回帰分析をやる話 1分もかかりません lmとupdateを使えば見事に重回帰分析もできる nlsを使うと非線形回帰も使えるようになるとか 年齢推定や!! id:bonohu DBCLSの話 ライフサイエンスデータの「上水処理場+下水処理場」 データ

    myrmecoleon
    myrmecoleon 2009/09/20
    Rにも時刻変換関数あるのかー。grepも。
  • 統計解析用フリーソフト・R-Tips

    R は有名な統計言語『 S 言語』をオープンソースとして実装し直した統計解析ソフトです.さまざまなプラットフォーム(OS)に対応しており,誰でも自由にダウンロードすることができます.それにも関わらず,世界中の専門家が開発に携わっており,日々新しい手法・アルゴリズムが付け加えられています.とにかく計算が速い上にグラフィックも充実しているので数値計算などにも持ってこいです.このドキュメントは Windows 版 R と Mac OS X 版 R(と一部 Linux 版 R )でコマンドを調べた足跡です. ちなみに,この頁の内容を新しくした書籍は こちら ,電子書籍版は こちら で販売されております.

  • 1