タグ

ブックマーク / uribo.hatenablog.com (9)

  • Rから離れたくない人向けのDocker環境の操作: RStudio Serverを分析・開発の基盤にするために - cucumber flesh

    この記事はRStudioアドベントカレンダーの21日目の記事です。もうすぐこのアドベントカレンダーも終わりですね。ハヤイ! 今年のはじめにこんな記事を書きました。 uribo.hatenablog.com 皆さんはDockerを利用していますでしょうか。今年のデータ分析系のアドベントカレンダーでもぞうさんがdockerが取り上げられています。 qiita.com Rユーザの自分にとっては、Dirk EddelbuettelやCarl Boettigerなどが携わるrockerプロジェクトが整備されているのが嬉しいです。 notchained.hatenablog.com rockerプロジェクトdockerイメージの多くはRStudio Serverをイメージのベースとしており、お手軽にローカル環境とは別のRStudio環境が構築できます。また必要に応じて、rockerのdockerim

    Rから離れたくない人向けのDocker環境の操作: RStudio Serverを分析・開発の基盤にするために - cucumber flesh
  • 見えないRの関数のソースコードを読む - cucumber flesh

    要約 lookupパッケージで標準の関数定義ソースコードの出力機能を改善する 総称関数や.C(), .Internal()などの関数で呼び出されるコードも出力 prettycodeパッケージで関数定義のハイライトを有効にする prettycodeはRの起動時に読み込み、lookupは適宜、名前空間を指定してlookup::lookup()で実行、という運用にした ソースコードの閲覧機能の向上とハイライト機能 最近ちょくちょく、Rのソースコードの読み方が変わっていくんではないかなと思っています。読み方というか出力方法というか。 百聞は一見に如かず。次の画像をご覧ください。この画像には通常のRでのソースコード出力と異なる点が2箇所あります。 この画像はターミナル上で起動したRで、head()のソースコードを表示している場面です。何かお気づきになられるでしょうか。手元にRを実行できる環境がある方

    見えないRの関数のソースコードを読む - cucumber flesh
  • データフレームの特徴をもっと早く掴みたい ~ ハドリーへの挑戦 - cucumber flesh

    探索的なデータ分析 (Explore Data Analysis: EDA)を行う際は、データの要約や欠損の有無の確認、可視化が欠かせない作業となります。 特に可視化は、データのもつ性質や関係を表現するのに大変役立ちます。一方で、可視化に用いた図はコードとは別に保存する必要があったり、作図のためのコードを書いたりと、面倒な側面もあります。 … きちんとした作図は面倒だけどデータの性質や欠損について把握したい。そんな時にはコンソール上での可視化を試しましょう。そのためのパッケージをHadley Wickhamが開発しています。 https://github.com/hadley/precis Rにはそもそも、オブジェクトの情報を要約してくれるsummary()関数があるのですが、この precisパッケージは、それを置き換えるような設計を目指しているそうです。早速使ってみましょう。 # gi

    データフレームの特徴をもっと早く掴みたい ~ ハドリーへの挑戦 - cucumber flesh
  • Rおじさん、Pythonistaになる - cucumber flesh

    こちらをご覧ください。踏み絵ではありません。R上で地理空間データを扱うPythonモジュール、geopandasによる作図を行なっている画面です。 え、RでPythonを!?と驚かれる方もいるかもしれませんが、reticulateというRパッケージを使うことで、ほぼストレスフリーでPythonのモジュールや関数がR上で利用可能になります。先の図は次のコードによって実行されました。 library(reticulate) # モジュールの呼び出し gpd <- import("geopandas") plt <- import("matplotlib.pyplot") # サンプルデータの読み込み world <- gpd$read_file(gpd$datasets$get_path("naturalearth_lowres")) # データセットの確認 head(world) # ではな

    Rおじさん、Pythonistaになる - cucumber flesh
  • ⭐️PDFの情報・文章をRでごっそり取得する - cucumber flesh

    便利なRパッケージを見つけたのでメモがてら紹介しておきます。以前、Rを使ってPDF上のテキストを取得するパッケージとして{tm}パッケージを紹介しましたが、同様の機能をもった{pdftools}は以下の特徴があります。 PDFがもつ各種の情報やテキストを取得できる 日語も問題なし PDFがロックされている場合、パスワードで開ける PDFを画像として出力できる 開発者はrOpenSciの一員でもあるJeroen Oomsです。 github.com uribo.hatenablog.com {tm}パッケージでは日語が含まれるPDFを扱う際にはちょっとした工夫が必要でしたが、{pdftools}では日語の出力も問題なく行うことができてちょっと感動しました。機能としてPDFの情報を得る、ということとPDFを画像として出力する、というものがあります。 🔰 使用例 CRANに登録されている

    ⭐️PDFの情報・文章をRでごっそり取得する - cucumber flesh
  • 🍭ホクソエムのつながりをNeo4Jを使って確かめる - cucumber flesh

    先日、Neo4Jというオープンソースで開発されるグラフデータベースの存在を知りました。恥ずかしながら、グラフデータベース?なにそれ美味しいの?という知識しかありませんでしたが、どうやらNoSQL(リレーショナルデータベースだけがデータベースではない)の流れを組んで誕生したものらしいです。グラフデータベースは、表形式で表現されるリレーショナルデータベースに対して、データ間の関係性を表現するのに向いています。 気になるものがあるとすぐにRパッケージを探し出してしまう性分なので調べてみると、すぐに {RNeo4j}というパッケージが見つかりました。というわけでこの{RNeo4j}パッケージを使ってNeo4Jの扱いについて慣れていこうというメモです。 今回は適当な例として来月に結成1周年を迎える匿名知的集団「ホクソエム」のメンバー間のTwitter上でのフォロー状況について整理してみることにします

    🍭ホクソエムのつながりをNeo4Jを使って確かめる - cucumber flesh
  • 📘 R言語徹底解説(原著: Advanced R)を読んだ - cucumber flesh

    🍵前置き 有難いことに去年は著者や関係の方から何冊かの(じゃんけん大会での獲得を含む)をいただいておきながら、ついったー上でしか報告(宣伝?)できていなかったので今年はブログにも書くことにする(みなさまからの献、お待ちしております)。 今回はいよいよ今週発売を迎える全Rユーザー待望の「R言語徹底解説(原著: Advanced R)」を関係者のご好意により頂いた。一通り読み終えたので感謝の気持ちも込めて、書籍の概要を紹介するとともに一読者としての感想や気になった箇所などをまとめてみる。(執筆お疲れさまでした、そして完成ならびに出版おめでとうございます。一Rユーザーとして、書のような素晴らしいに出会えて私は幸せです) 🍵前置き 📖書の概要 👦 私について 💯 総評 第1部: 基礎編: 「なんとなく」を「徹底」した理解に変える 第2部: 関数型プログラミング: 効率的な関数の

    📘 R言語徹底解説(原著: Advanced R)を読んだ - cucumber flesh
  • 📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010): 8 説明したい変数は独立と言えるのか? - cucumber flesh

    この記事では統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010)で扱われている目的変数の独立性について議論する。 uribo.hatenablog.com データ解析時における統計的手法の多くは、観測されたデータが他と独立であることを仮定している。あるデータをとる時、そのデータは以前に観測されたデータとは無関係に集められる必要がある。また新たに得られたデータが今後得られるデータに対して影響を及ぼすような何らかの情報を含んでいてはいけないというようなものである。といってもあくまでもこれらは仮定なので、現実にはこれらが完全に独立でないことを考慮することの方が大事になってくる。 一方で明らかにデータどうしが独立でないものもある。例えば地域を代表する植生を調べた時、調査した地点が互いに近いと同じようなデータが得られてしまい、十分に調査地の距離を離して得たデータと比

    📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010): 8 説明したい変数は独立と言えるのか? - cucumber flesh
  • 💮「ヘルスケア」からデータをとってきてRで自己健康診断する - cucumber flesh

    「ヘルシープログラマ」を読んだせいか、年のせいか、健康に気を遣うおう、という気持ちになってきた。たとえ生活リズムがボロクソになっていても、気持ちの面では健康に気を遣いっていたい。 先日、長らく使っていたiPhone 4Sを機種変更してiPhone 6Sにした。そのため、ヘルスケアアプリの歩数計の機能が使えるようになった。これが結構楽しくて毎日確認している。確認していると、当然のごとくRで解析したくなってくる。こうした気持ちは全人類共通のものであるにもかかわらず、データをダウンロードしたり、転送したりという昨日はない。Shucks! というわけでヘルスケアのデータをダウンロードしてくれるアプリを探したらすぐに見つかった。 QS Access Quantified Self LabsHealth & FitnessFree http://www.fat32.io/blog/2015/1/21/

    💮「ヘルスケア」からデータをとってきてRで自己健康診断する - cucumber flesh
  • 1