タグ

ブックマーク / uribo.hatenablog.com (6)

  • データフレームの特徴をもっと早く掴みたい ~ ハドリーへの挑戦 - cucumber flesh

    探索的なデータ分析 (Explore Data Analysis: EDA)を行う際は、データの要約や欠損の有無の確認、可視化が欠かせない作業となります。 特に可視化は、データのもつ性質や関係を表現するのに大変役立ちます。一方で、可視化に用いた図はコードとは別に保存する必要があったり、作図のためのコードを書いたりと、面倒な側面もあります。 … きちんとした作図は面倒だけどデータの性質や欠損について把握したい。そんな時にはコンソール上での可視化を試しましょう。そのためのパッケージをHadley Wickhamが開発しています。 https://github.com/hadley/precis Rにはそもそも、オブジェクトの情報を要約してくれるsummary()関数があるのですが、この precisパッケージは、それを置き換えるような設計を目指しているそうです。早速使ってみましょう。 # gi

    データフレームの特徴をもっと早く掴みたい ~ ハドリーへの挑戦 - cucumber flesh
  • Rおじさん、Pythonistaになる - cucumber flesh

    こちらをご覧ください。踏み絵ではありません。R上で地理空間データを扱うPythonモジュール、geopandasによる作図を行なっている画面です。 え、RでPythonを!?と驚かれる方もいるかもしれませんが、reticulateというRパッケージを使うことで、ほぼストレスフリーでPythonのモジュールや関数がR上で利用可能になります。先の図は次のコードによって実行されました。 library(reticulate) # モジュールの呼び出し gpd <- import("geopandas") plt <- import("matplotlib.pyplot") # サンプルデータの読み込み world <- gpd$read_file(gpd$datasets$get_path("naturalearth_lowres")) # データセットの確認 head(world) # ではな

    Rおじさん、Pythonistaになる - cucumber flesh
  • 2017年のRとの付き合い方: 分析環境編 - cucumber flesh

    ギョームでRを使い始めてから一年経っていないのだけど、それなりにスタイルが確立してきた気がするし、新年なので、現状で理想的だと思われる分析環境を整理しておく。ちなみに私のギョームは主にデータの前処理や地理空間データのマッピング、簡易アプリケーションの作成で、巷のデータサイエンティスト的なものとは違う。いわゆるにわかデータサエンティストである。とはいえ、ここであげる分析環境の整備や実行はデータサイエンティストや研究者のギョームにも有効だと思っている。 分析環境編とコーディングスタイル編について分けて書く。最初はまだ不確定なところもあり、今年から格的に取り組もうというものもあるが分析環境についてまとめておく。これらの具体的な利用方法については、まだ未確定なものもあるが、このブログで後々書いていければと思う。 分析環境 大事にしたいのはモダンな技術と再現性の確保。以前集計したり出力したデータを

    2017年のRとの付き合い方: 分析環境編 - cucumber flesh
    p_tan
    p_tan 2017/01/25
    Rの環境構築例
  • 🍭ホクソエムのつながりをNeo4Jを使って確かめる - cucumber flesh

    先日、Neo4Jというオープンソースで開発されるグラフデータベースの存在を知りました。恥ずかしながら、グラフデータベース?なにそれ美味しいの?という知識しかありませんでしたが、どうやらNoSQL(リレーショナルデータベースだけがデータベースではない)の流れを組んで誕生したものらしいです。グラフデータベースは、表形式で表現されるリレーショナルデータベースに対して、データ間の関係性を表現するのに向いています。 気になるものがあるとすぐにRパッケージを探し出してしまう性分なので調べてみると、すぐに {RNeo4j}というパッケージが見つかりました。というわけでこの{RNeo4j}パッケージを使ってNeo4Jの扱いについて慣れていこうというメモです。 今回は適当な例として来月に結成1周年を迎える匿名知的集団「ホクソエム」のメンバー間のTwitter上でのフォロー状況について整理してみることにします

    🍭ホクソエムのつながりをNeo4Jを使って確かめる - cucumber flesh
  • ⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh

    RStudioのチーフサイエンティスト、Hadley Wickham(ハドリー)が2月に行った講演のビデオがYouTubeに上がっていたので観た。 "Making Data Analysis Easier"というタイトルでの発表(スライドでは"Managing many models"になっているけど)で、ハドリー自身が考えている、データサイエンスに必要な可視化やモデリングを効率的に行うための手法について、彼の開発してきたパッケージを中心に説明している。 www.youtube.com 分かりやすく、具体例を交えた内容なので、是非YouTubeの動画を観てもらうのが良いと思うが、自分の頭を整理するためにもここでまとめておく。なお、発表スライドはクリエイティブ・コモンズライセンス3.0のもと、表示・非営利のラインセンスで再利用可能となっている。 Hadley Wickham (Chief S

    ⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh
    p_tan
    p_tan 2016/03/27
  • 🍵RStudio開発の歴史と変遷を辿る動画 - cucumber flesh

    VimeoにRStudio 4年間の開発の履歴を視覚化した動画が投稿されていた。 4 Years of RStudio Development on Vimeo 個々のファイルがどういう機能を持っているのかは何が何だかわからないが、集中して整備が進む「枝」や人々の移動を見ていると楽しい。 そういえば以前、R体について扱ったものもあった。 Watch 18 years of R development in 15 minutes 動画を見た際になんだか似ているなーと思っていたら、 gourceというツールを使うと同様のものが作れるらしい。 RStudioの活動を見逃さない 今回の動画もそうだが、RStudioの活動はRStudio体の開発のみならず、Rの普及やReproducible research、モダンな分析手法の啓蒙のようなものがある。皆さんチェックされているのかもしれないが、こ

    🍵RStudio開発の歴史と変遷を辿る動画 - cucumber flesh
  • 1