タグ

Rに関するGlnのブックマーク (116)

  • Rで欠損値の有無を判定する函数 anyNA()|Colorless Green Ideas

    Rの函数 anyNA() は引数のオブジェクトに欠損値が含まれているかどうかを高速に返す函数であり、欠損値が含まれていれば TRUE を返す。 anyNA() で欠損値の有無を調べる データを集める際に、何らかの理由で一部のデータが得られないことがある。例えば、アンケートを行う際に、ある回答者が年齢について回答してくれなかったために、その回答者の年齢のデータが得られないということがある。あるいは温度計の故障で、ある地点の温度のデータが得られないということもある。こうして得られなかった値のことを欠損値と呼ぶ。データの処理を始める際には、その中に欠損値があるかどうかを確認することが重要である。もし欠損値を含むようであったら、それなりの対応を取らなくてはならない。 統計解析用の言語である R には、anyNA()という有用な函数があり、これで欠損値の有無を調べることができる。この函数は、ベクトル

    Rで欠損値の有無を判定する函数 anyNA()|Colorless Green Ideas
    Gln
    Gln 2014/09/06
  • Rのバージョン3.1.0がリリース|Colorless Green Ideas

    統計処理言語の R のバージョン3.1.0が、2014年4月10日に公開された。この新リリースでの主な変更点について解説する。 バージョン3.1.0のリリース 2014年4月10日、R のバージョン3.1.0がリリースされた。コードネームは Spring Dance(春の踊り)である。バージョン3.0.0がリリースされたのは、2013年4月3日なので、およそ1年を経てマイナーバージョンアップが行われたことになる [1] 。 Rのバージョン3.1.0のコードネームは Spring Dance(春の踊り)である。 [2] バージョン3.1.0での変更点の詳細は、Rアナウンスメーリングリストでのバージョン3.1.0リリースの通知(R 3.1.0 is released、英語)を参照されたい。 バージョン3.1.0での主な変更点 以下で、バージョン3.1.0での変更点のうち、重要だと思われる点をい

    Rのバージョン3.1.0がリリース|Colorless Green Ideas
    Gln
    Gln 2014/09/06
    「anyNA()」「バージョン3.1.0では ward.D2 という、Ward 法の正しい実装が導入された。hclust(…, method=”ward.D2″) と指定することで、このより正しい実装を用いることができる」
  • Amazon.co.jp: Rによる時系列分析入門: 田中孝文: 本

    Amazon.co.jp: Rによる時系列分析入門: 田中孝文: 本
  • 『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)を書くに当たって気を付けたこと&補足など(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ

    追記(2015/03/14) 第7章の決定木のところで取り上げた{mvpart}パッケージのサポートが切れ、CRANから削除されてしまったためinstall.packages関数ではインストールできなくなっています。現在のインストール方法を最後に追記しました。 追記(2014/09/18) 実はGoogleブックスで立ち読み可能です 拙著公式サポートページと相互リンクしています。サンプルデータと正誤表はこちらをご参照ください ということで、以下の通り拙著『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)が日発売と相成りました(都内の大型書店では先週半ばから先行販売している模様です)。 手を動かしながら学ぶ ビジネスに活かすデータマイニング 作者: 尾崎隆出版社/メーカー: 技術評論社発売日: 2014/08/22メディア: 単行(ソフトカバー)この商品を含むブログ

    『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)を書くに当たって気を付けたこと&補足など(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ
  • 『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊 - 渋谷駅前で働くデータサイエンティストのブログ

    執筆陣12人中8人が直接の知人友人というこの新刊書でございますが。 データサイエンティスト養成読 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus) 作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋武彦,里洋平,和田計也,早川敦士,倉橋一成出版社/メーカー: 技術評論社発売日: 2013/08/08メディア: 大型この商品を含むブログ (4件) を見る もちろん僕も発刊が決まってAmazonに予約ページができた時点でポチりまして、読んでみたところあまりにも内容が素晴らしかったので早速現職場の図書コーナーに持ち込んだ次第です(笑)。ということで、僭越ながら書評など書かせて頂こうかと思います。 ざっくり内容紹介 正直言って、ものすごーーーく網羅的で非常によく出来ています。1ページ目から順に読んでいっても初学

    『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊 - 渋谷駅前で働くデータサイエンティストのブログ
  • 統計解析ソフト「R」で取り組む回帰分析

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 前回、オープンソースの統計解析ソフト「R」の簡単な使い方を説明しました。今回は、実際にRにあるデータセットを使い、回帰分析に取り組み、その結果をどのように使っていくかを説明したいと思います。 回帰分析とは 回帰分析とは、「目的変数」と「説明変数」間の関係を表す式を統計的な手法によって推計する分析のことです。 目的変数とは予測の対象とする「量」のことであり、説明変数は目的変数を説明、つまり物事の原因を表すのに使う変数です。この2つの変数にどんな関係があるのか、例えば天候という変数は、売り上げにどう影響するかを数式で表すために回帰分析を使います。 今回の記事についての回帰分析は特に断りがない場合、すべて線形回帰分析、つまり「直線をモデル」に

    統計解析ソフト「R」で取り組む回帰分析
  • 生態学データ解析 - 本/データ解析のための統計モデリング入門

    講義のーと の内容を詳しく説明したものです 著者: 久保拓弥 出版社: 岩波書店, シリーズ「確率と情報の科学」 編集: 甘利俊一,麻生英樹,伊庭幸人 このペイジの省略 URL: http://goo.gl/Ufq2 刊行と まちがい・修正一覧) 第 1 刷刊行: 2012 年 5 月 18 日 第 15 刷刊行: 2018 年 3 月 15 日 原稿時点の PDF ファイル (参考用) 目次, さくいん, まえがき 韓国語版 (翻訳は滋賀大の李鍾賛さん, 2017-09-15) 「統計モデリング入門」ネット上のあれこれ (のごく一部) 丸善・ジュンク堂書店の「今年驚いた! 1 冊」の「驚きの出版賞」 に選ばれました! (web archive, KuboLog 2012-12-20) Amazon カスタマーレビュー はてな出版物 -- 言及ブログへのリンクなどがあります! ブクログ,

  • Stanで統計モデリングを学ぶ(5): とりあえず階層ベイズモデルを試してみる(応用編:トレンドのあるモデル) *追記2件あり - 渋谷駅前で働くデータサイエンティストのブログ

    このシリーズ記事、全然真面目に事前分布の勉強をしていない人間がStanで無理やりフルベイズをやろうという無謀な代物でございますが、何だかんだで段々佳境に入ってまいりました。 ということで、今回は階層ベイズモデルをこんな感じでやってみましたという例を挙げてみようかと思います。ちなみに内容的には@berobero11さんのこちらの記事(「RStanで『予測にいかす統計モデリングの基』の売上データの分析をトレースしてみた」)をグレードダウンさせた感じのものだったりします(笑)。そして先日招待講演させていただいた時の最後の方で取り上げた例でもあります。 そんなわけで、どのようにしてやっていったかを含めてサクサク見ていきましょう。階層ベイズについて忘れちゃったという人は、前回の記事あたりを読んで復習してもらえれば。 データをインポートする いつも通り、サンプルデータをGitHubに上げてあるので持

    Stanで統計モデリングを学ぶ(5): とりあえず階層ベイズモデルを試してみる(応用編:トレンドのあるモデル) *追記2件あり - 渋谷駅前で働くデータサイエンティストのブログ
  • MCMCの計算にStanを使ってみた(超基礎・導入編) - 渋谷駅前で働くデータサイエンティストのブログ

    肝心のMCMCの勉強はどこ行ったゴルァとか怒られるとアレなんですが、先にツールの使い方覚えてしまおうと思ってStanで簡単な練習をやってみました。ちなみに参考にした資料はこちら。 Stanチュートリアルの資料を作成しました。 - Analyze IT. StanTutorial 割とよく一緒に飲んでるid:EulerDijkstra氏のブログがとにかく役に立ちました。ありがとさんです!!! あと、MCMCやるのはこれが初めてという人は最低限久保先生の緑ぐらいは読んでおいて損はないと思います。ただしStanではなくWinBUGSを{R2WinBUGS}で回す系ですが。 データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学) 作者: 久保拓弥出版社/メーカー: 岩波書店発売日: 2012/05/19メディア: 単行購入: 16人 クリック

    MCMCの計算にStanを使ってみた(超基礎・導入編) - 渋谷駅前で働くデータサイエンティストのブログ
  • Python + PypeRでPythonからRをつかってみる - 工作とかオーディオとか

    Python機械学習周りのパッケージは充実している感じがあるのですが、どうにも統計周りのパッケージが不足している感じがあって、PythonからRを叩くパッケージを試してみることにしました。 PythonからRをつかうパッケージとしてはRPy2が有名っぽいですが、 There is currently no binaries or support for Microsoft Windows (more for lack of ressources than anything else). とのことで・・・ 試しにeasy_installでインストールしてみましたがエラーが出てインストールできなかったので、違う方法を試すことにしました。 PythonからRを使いたい -だがRPy2おめーはダメだ- - 盆栽日記を見てPypeRのほうを試すことにしました。 インストールはいつもどおりeasy_

    Python + PypeRでPythonからRをつかってみる - 工作とかオーディオとか
    Gln
    Gln 2014/07/12
  • PythonからRを使いたい -だがRPy2おめーはダメだ- - 盆栽日記

    経緯 とある事情でランダムフォレストを使いたいのだがrandomForestパッケージは因子のレベルが32までというFORTRAN実装を引きずっており今回のデータには合わない。 ならばとpartyパッケージのcforestを使ってみたが今度はメモリが足りなくなった。 諦めて因子のレベルを32以内にすればいいのだろうが、せっかくなのでPythonを使ってみたい。 で、Scikit-learnにランダムフォレストが実装されてるとのことなので入れてみた。 http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn Scikit-learnについてはこれでおしまい。 ところで、↑のサイトを眺めているとRPy2がある。 RPy2に関しては当方Win7の64bit環境だが以前は32bitのものしかなくインストールすらうまくいかなかったことを思い出した

    PythonからRを使いたい -だがRPy2おめーはダメだ- - 盆栽日記
  • Python と R で連携する - Qiita

    R と Python の連携を考える 最近 R による基的なデータプロッティングやファイル入出力の方法について説明しました。 データ分析の言語としては Python ですべてをやろうという傾向があるようですが、やはり過去の膨大な R による資産は魅力的でそう簡単に切り捨てられるものではありません。 よくあるケースとしては、部分的なデータ解析については R を流用したいが、全体的なプログラミングは Python で書きたいというシーンでしょう。また、プロッティングだけ R でおこないたいという場合もあるでしょう。こんなとき Python と R で連携できれば問題が一気に解決して便利です。 Python から R を利用するライブラリ PypeR かつては RPy2 というライブラリが使われていたようですが、最近使われており主流なのは PypeR です。 PypeR のインストール インス

    Python と R で連携する - Qiita
    Gln
    Gln 2014/07/12
  • magrittrがいい感じ - My Life as a Mock Quant

    dplyrパッケージとmagrittrの組み合わせはいい感じだ。 dplyrパッケージで出来るだけデータフレームの状態でデータを捌いておいて magrittrパッケージの関数を使って、必要なところだけベクトル化して捌く というイメージだな。 magrittrパッケージのマニュアルに載っているAliases群を噛ませるとより%>%をエンジョイできるぞとそういうことです。 Aliaseはこちらに書いてある。 例えば全く意味がないけど、以下のような"流れる"コードが書けるわけです。 library(dplyr) library(magrittr) iris %>% mutate(Width=Sepal.Width+Petal.Width) %>% group_by(Species) %>% summarize(AverageWidth=mean(Width)) %>% use_series(Av

    magrittrがいい感じ - My Life as a Mock Quant
    Gln
    Gln 2014/06/26
  • 野球のスコアで一番多いのは何対何だと思う? - 300億円欲しい

    野球のスコア こんなツイートを見つけました. 日は神宮で東都大学野球を観戦後、Hさん、Gさんと外苑前の居酒屋で一杯。Gさんから「野球のスコアで一番多いのは何対何だと思う?」とお題。Gさんによれば、過去のMLBの試合を全て調べた人がいて、そのスコアは「3ー1」だったそうだ。続く— ふくださん (@fukudasun) 2014, 4月 22 知りませんでした. 手元にMLBのデータがあるので, 調べてみました. データの取得 http://retrosheet.orgからデータをダウンロードします. メジャーリーグの試合の, 全てのイベントに関するデータが取得できます. 下記参照. Rで野球データを取得したい - 300億円欲しい とりあえず, 1921年から2013年までのデータを取得しました. 全部で2GBくらいです. 準備は整いました. 早速調査しましょう. 2013年のスコア別試合

    野球のスコアで一番多いのは何対何だと思う? - 300億円欲しい
  • ベクトル(文字列)の頻度を可視化したい with dplyr, ggplot2 - My Life as a Mock Quant

    ggplot2が苦手な俺がどうやってそれをやったのかという備忘録。 必要なパッケージは以下の3つ。適当にinstall.packagesしておくべし。 library(ggplot2) library(magrittr) library(data.table) サンプルデータは適当に作った文字列ベクトル x <- sample(letters[1:15], 100, replace=TRUE) これをggplot2で可視化(棒グラフ)にしたい。したいんだが、ggplot2苦手な俺はがんばった。もちろん 気が付いたらRがF#になる日が来るのかもしれない、そんなことを考えていました - My Life as a Mock Quant magrittrがいい感じ - My Life as a Mock Quant を見てもわかるように、dplyr & chain脳になった俺は%>%を使って処理を

    ベクトル(文字列)の頻度を可視化したい with dplyr, ggplot2 - My Life as a Mock Quant
    Gln
    Gln 2014/06/26
  • R言語入門 (全13回) - プログラミングならドットインストール

    統計解析用のプログラミング言語であるR言語について、基的な使い方を見ていきます。

    R言語入門 (全13回) - プログラミングならドットインストール
    Gln
    Gln 2014/06/20
  • 配列(array)の書き方がよくわからんかったのでメモ - My Life as a Mock Quant

    行列でもたまに混乱するのに、更に次元が上がった多次元配列になんてなるともう???ってなる低能です。もちろん、配列を使うのではなくて、"行列を要素に持つリスト"を使うのも手かとは思いますが、arrayの方が便利そうだったので、行列を一次元だけあげた3次元配列を例にちょっとメモっておく。 配列(array)を作成するにはarray関数を使っておけという感じ。matrix関数と同じように第一引数には要素の値を入れて、第二引数には各次元(1次元(行)、2次元(列)、3次元…)の要素数をベクトルで指定しておく。ここでは全12要素を持つ配列(2(1次元目、行)×2×2(2次元目、列)×3(3次元目))を作成。 > a <- array(1:12, c(2, 2, 3)) > a , , 1 [,1] [,2] [1,] 1 3 [2,] 2 4 , , 2 [,1] [,2] [1,] 5 7 [2,

    配列(array)の書き方がよくわからんかったのでメモ - My Life as a Mock Quant
    Gln
    Gln 2014/05/15
  • とっつきにくいけど実はエクセル以上に賢いヤツ フリー統計解析ソフトウェア「R」を触ってみよう【R入門講座】

    『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

    とっつきにくいけど実はエクセル以上に賢いヤツ フリー統計解析ソフトウェア「R」を触ってみよう【R入門講座】
    Gln
    Gln 2014/05/12
  • GNU Rで例外処理(try-catch) - ハリ・セルダンになりたくて

    GNU Rで例外処理(try-catch)をすることが(たまに)あるのですが、どうしてもその使い方が覚えられず、(必要になると毎回)googleで検索して時間の無駄なので、自分用の覚書: RのtryCatchは tryCatch( {処理体}, warning = function(w) {警告(warning)が発生した場合の処理}, error = function(e) {エラー(error)が発生した場合の処理}, finally = {最終的な処理} )という構文になっており、「{処理体}」の部分に「警告やエラーが発生するコード」を書き、警告が発生した場合に行う処理をwarningに、エラーが発生した場合に行う処理をerrorに書いておく(finallyは最終的な処理を書く)。 言葉で説明するとさっぱり分からないかもしれないので、簡単なコード例を以下に示します。 # An e

    GNU Rで例外処理(try-catch) - ハリ・セルダンになりたくて
    Gln
    Gln 2014/04/21
  • 今さら人に聞けない「重回帰分析の各手法の使い分け」 - 渋谷駅前で働くデータサイエンティストのブログ

    (※※※続編記事書きました→「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ) 今ちょうどadtech tokyo 2013の会期中で、職場からも近い&会社から行ってこいという指示が出たということで僕も色々セッションを聞いたり企業ブースのお話を聞いたりしてる*1ところです。 ところで、いくつかのセッションの中でキーワードとして「重回帰分析」という言葉が出てきてました。ま、それ自体はこのブログでもRによるデータ分析絡みで頻出だし、ぶっちゃけありふれた手法と言って良いでしょう。やりようによっては普通にExcelでもできますし、それだけ人口に膾炙していると言って良いのかもですね。 ただし。意外にも内部のパラメータというか細かい手法の分岐というか、それこそ普通の線形モデルvs.一般化線形モデル(バリエーション多数)があることを無視して漫然と重回帰分析をや

    今さら人に聞けない「重回帰分析の各手法の使い分け」 - 渋谷駅前で働くデータサイエンティストのブログ