タグ

rに関するmanabouのブックマーク (136)

  • Deployed R app with Shiny crash with 'could not find function "httpdPort"'

  • Deploy Rook Apps: Part II

  • Cory Nissen

    I’ve decided to move on from my old Stats and things blog and host my own.

    Cory Nissen
  • データフレームの特徴をもっと早く掴みたい ~ ハドリーへの挑戦 - cucumber flesh

    探索的なデータ分析 (Explore Data Analysis: EDA)を行う際は、データの要約や欠損の有無の確認、可視化が欠かせない作業となります。 特に可視化は、データのもつ性質や関係を表現するのに大変役立ちます。一方で、可視化に用いた図はコードとは別に保存する必要があったり、作図のためのコードを書いたりと、面倒な側面もあります。 … きちんとした作図は面倒だけどデータの性質や欠損について把握したい。そんな時にはコンソール上での可視化を試しましょう。そのためのパッケージをHadley Wickhamが開発しています。 https://github.com/hadley/precis Rにはそもそも、オブジェクトの情報を要約してくれるsummary()関数があるのですが、この precisパッケージは、それを置き換えるような設計を目指しているそうです。早速使ってみましょう。 # gi

    データフレームの特徴をもっと早く掴みたい ~ ハドリーへの挑戦 - cucumber flesh
  • 見えないRの関数のソースコードを読む - cucumber flesh

    要約 lookupパッケージで標準の関数定義ソースコードの出力機能を改善する 総称関数や.C(), .Internal()などの関数で呼び出されるコードも出力 prettycodeパッケージで関数定義のハイライトを有効にする prettycodeはRの起動時に読み込み、lookupは適宜、名前空間を指定してlookup::lookup()で実行、という運用にした ソースコードの閲覧機能の向上とハイライト機能 最近ちょくちょく、Rのソースコードの読み方が変わっていくんではないかなと思っています。読み方というか出力方法というか。 百聞は一見に如かず。次の画像をご覧ください。この画像には通常のRでのソースコード出力と異なる点が2箇所あります。 この画像はターミナル上で起動したRで、head()のソースコードを表示している場面です。何かお気づきになられるでしょうか。手元にRを実行できる環境がある方

    見えないRの関数のソースコードを読む - cucumber flesh
  • 機械学習を学ぶ上で個人的に最強と思う教科書 - Qiita

    動機 いわずもがなですが、機械学習の勉強にはとても時間が掛かります。 でも、同じ勉強時間を費やしたとしても、教材の良し悪しで捗り方が大きく変わってくることは、誰もが実感していることだと思います。 そこで、記事ではテーマごとに私が考える最強の教科書をリストしていこうと思います。 ディープラーニング(アルゴリズムの理解) 「Deep Learning」An MIT Press book, 2016/12 発行 http://www.deeplearningbook.org/ 印刷も売られてますが、上のWebページでいつでもタダで読めます。(版権上の問題でPDFの形では配布できない&してないそうです) このは、ここ数年のディープラーニングの進歩のうち研究者の間ではメジャーとなっているであろうテーマはすべて書いてある、ともいえる内容の広さがありつつ、それぞれのテーマについて理論的背景と具体的

    機械学習を学ぶ上で個人的に最強と思う教科書 - Qiita
  • ウェブスクレイピングと形態素解析 - Qiita

    rvest パッケージを使ってWEBから文字列を取得し、これをデータフレームにして RMeCab の doDF() で解析する。 前提 MeCab がインストールされた環境。OSXでのMeCabのインストールについては https://sites.google.com/site/rmecab/home/install を参照。 さら R がインストールされており、追加で以下のパッケージが導入されている。 install.packages(c("dplyr", "rvest", "wordcloud", "igraph"), depend = TRUE) install.packages("RMeCab", repos = "http://rmecab.jp/R")

    ウェブスクレイピングと形態素解析 - Qiita
  • [R] 予測モデルを作るには formula を活用せよ - ill-identified diary

    概要 formula オブジェクトは変数変換や交互作用項など, 多彩な表現ができる. xgboost や glmnet では model.matrix() を併用することで formula を利用できる. 統計モデリング/機械学習で予測モデルを構築するとき, 予測性能の向上のため, しばしば変数を入れ替えたり, 変換したりといった推敲が必要となる. R ではこういうときに formula オブジェクトを使うと, いちいちデータフレームに変換後の数値を追加したり書き換えたりする必要がなくなる. glmnet や xgboost など, formula が直接使えないものでも model.matrix() 等を併用すれば可能である*1. formula オブジェクトを解説した記事を探すと, かなり前から存在する. 例えば以下の記事. m884.hateblo.jp なお, 上記はタイトルが「f

    [R] 予測モデルを作るには formula を活用せよ - ill-identified diary
  • Osaka.Stan #4 Chapter 7 回帰分析の悩みどころ (7.1–7.5) 【※Docswellにも同じものを上げています】

    Osaka.Stan #4 Chapter 7 回帰分析の悩みどころ (7.1–7.5) 【※Docswellにも同じものを上げています】 【2022/3/14追記】Slideshareが使い物にならなくなったため,今まで上げていた資料はより高機能なDocswellに上げ直しました。混乱防止のため,Slideshare上の資料はそのうち消すかもしれませんので了承ください。 Docswellの動画リスト: https://www.docswell.com/user/mutopsy 『StanとRでベイズ統計モデリング』読書会 (Osaka.Stan #4 2017.4.29)の発表資料です。Chapter 7の前半 (7.1-7.5) の内容(交互作用・対数変換・非線形回帰・多重共線性・交絡)について解説しています。 12/9追記:このスライドの紹介記事をブログに投稿しました。コピペしやすい

    Osaka.Stan #4 Chapter 7 回帰分析の悩みどころ (7.1–7.5) 【※Docswellにも同じものを上げています】
  • R 3.4.0 のJITバイトコンパイラってどんくらい早くなるの? - でーたさいえんすって何それ食えるの?

    R3.4.0がリリースされましたね。 で、大きな変更点のひとつにJITバイトコンパイラがデフォルトでONになってるとのことです。 これによって、forループやfunctionは特に何もせずともバイトコンパイルが行われて高速化が行われることになります。 ※ただしbrowser()が入れられた関数はバイトコンパイル対象外になります。 ※コンパイルが不要なときは、compiler::enableJIT(0)または環境変数のR_ENABLE_JITを0にすればOKです 他にも色々アップデート情報の詳細はこちら R: R News で、RStudioもこのバイトコンパイル機能に対応したアップデートが行われたそうです。 cmpfun()使うとけっこう早くなるんだよなー。。。程度には覚えていたものの 具体的にどんだけ早いの?に対してはよく覚えてないので このバイトコンパイラでどんだけ早くなったのか? を

    R 3.4.0 のJITバイトコンパイラってどんくらい早くなるの? - でーたさいえんすって何それ食えるの?
  • Microsoft Data Amp について簡単なまとめ - Qiita

    SQL Serverを主役としたMicrosoft Data Ampというオンラインイベントがあったので簡単にポイントだけまとめておく。(おそらく誰かが綺麗にまとめてくれる気が・・・)もちろんオンデマンドで視聴できるので必要あればURLにアクセスしていただきたい。 https://www.microsoft.com/en-us/sql-server/data-amp こちらのお二人がメインスピーカー Microsoft Data Groupで一番お偉いさんにあたる Joseph Siroshは来月日で開催するde:codeでも登壇予定だ。 私のホストマネージャーのLaraもデモラーとして登場した。 次期 SQL Serverの正式名称がSQL Server 2017に決定 ダウンロードはこちらから。目玉のLinux対応やGraph DataサポートやR&Pythonサポートされている。

    Microsoft Data Amp について簡単なまとめ - Qiita
  • 残りの私たちにとって、Rが最高のプログラミング言語である理由 | POSTD

    訳注:2017/5/23、いただいた翻訳フィードバックをもとに記事を修正いたしました。 私はRを使用して6年以上になります。Rとの最初の出会いは、財政学におけるモンテカルロシミュレーションの博士課程の時で、紹介してくれたのはWolfgang Hörmannでした。プログラミング言語に関しては、それ以前にもいくつか使ったことがあり、最後のものはC++(これも私は大好きです)でしたが、それらのどれもRほど 便利 ではありません。 残りの私たちにとってRが最高の言語である理由をリストアップする前に、まず “残りの私たち” の定義を明確にしておきましょう。残りの私たちとは、ExcelユーザやSPSSユーザ、そしてコンピュータサイエンス(CS)界の外にいる人々(*)、つまり簡潔さを目指して努力しながら、同時にパワーと柔軟性を追求する “プログラムの利用者” のことです。Rは、そんな 私たち にとって

    残りの私たちにとって、Rが最高のプログラミング言語である理由 | POSTD
  • 特定時点のR環境をVagrantで再現する (Windows) - Qiita

    動機 数年前に作成したRスクリプトやRmarkdownファイルを持ち出してきて現在の環境で実行すると、当時問題なかったはずのコードが思うように動かないことがあります。再利用するなら古いコードを書き直すことが望ましいですが、検証目的の場合など、改変したくない or できない場合もあります。 かといって、現在使っている解析環境でR体やライブラリを依存関係を含めて入れ替えるのは大変ですし、他のプロジェクトの解析にも影響が出てしまう恐れがあります。 やりたいこと 「からだにいいもの」で紹介されていた versions パッケージのCRANページを読んで、 Microsoft R Openのサイト Microsoft R Application Network (MRAN) には、毎日のCRANライブラリのスナップショットが公開されていることを知りました。 そこからR体やライブラリをインストール

    特定時点のR環境をVagrantで再現する (Windows) - Qiita
  • [stan][R] RFM分析と階層ベイズ法 (解決編) - ill-identified diary

    概要 前回の『[python] [stan] 潜在変数と階層ベイズ法と RFM 分析 [未完成] - ill-identified diary』の完成版. 忙しくて1年近く放置していた…… パラメータを推定し顧客ごとの生涯顧客価値 (CLV) の計算まで実行できた. stan は 2.14.0 を利用. 前回のは 2.9 で, 2.10 以降は構文が大きく変わっているので注意. 前回の「プログラム」以外のセクションを読んでからこちらを読むことをおすすめする. 文章量は4ページ (画像とプログラム除く) 反省点実は, こちらですでに RF 分析についての stan の一部正解コードが書かれている.abrahamcow.hatenablog.com 前回の一番の問題点は, 原理上離散的なパラメータを扱えないハミルトニアンモンテカルロ (以下, HMC) 法で を無理やり離散パラメータとして扱お

    [stan][R] RFM分析と階層ベイズ法 (解決編) - ill-identified diary
  • お前Rは初めてか?力抜けよ - Qiita

    R の入門記事――というよりも詰まりやすいトピック、いや正確に言うと自分が理解するのに少し躓いた物事を連ねた、半ば恨み節といっても良いような記事です。 私は今ではRを毎日のように書いていますが、使い始めた当初は「何じゃこりゃ?」と思うことの嵐でした。……いや、正直に言って今でもそうなのですが。私は R の前には C、C++Python をそれなりに書いていて、申し訳程度に Haskell と Scheme に触ったことがあったのですが、どうも R は書いていて「あれ?」と思わされるポイントが多いように思います。もし私と同じような経験の元にRを書くことになって途方に暮れている人がいれば助けにならないかなあと思って書きました。 普通の入門であれば触れるようなこと(基的な構文、ブロードキャスティング、よくある操作など)には触れません。また、一つ一つのトピックを掘り下げることは重視していません

    お前Rは初めてか?力抜けよ - Qiita
  • データの次元削減に関する資料集 - めも

    次元削減とは データの次元削減(Dimensionality reduction) + データの可視化(Data Visualization) PCA Principal Component Analysis(PCA) randomized PCA Online Robust Principal Component Analysis(OR-PCA) 多様体学習 t-Distributed Stochastic Neighbor Embedding(t-SNE) Multidimensional Scaling(MDS) Isomap Locally Linear Embedding (LLE) Laplacian Eigenmaps(LE) Semidefinite Embedding (SDE) Latent Dirichlet Allocation(LDA) Labeled LDA P

    データの次元削減に関する資料集 - めも
  • Rで異常検知(1): これまで自分がやってきたことのおさらい - 渋谷駅前で働くデータサイエンティストのブログ

    ぶっちゃけ今更感がなくもないんですが、実はこれまで自分ではほとんど異常検知・変化検知をゴリゴリやったことがなかったなぁと思ったのでした。きっかけは、時々色々な手法のテストに使っているこのUCI機械学習リポジトリのデータセット。 UCI Machine Learning Repository: Water Treatment Plant Data Set これは説明にもあるように、とある都市部の下水処理場の様々なセンサからのインプットを合わせて日次でまとめたデータセットです。この手のプラントデータセットにありがちな課題がまさにその異常検知で、要は何か不具合があった日付を事後で良いので検出したいというお話です。 異常検知自体は、以前このブログでさらっとだけ取り上げたことがあります。それは{AnomalyDetection}パッケージの紹介記事。 この時は{AnomalyDetection}が依

    Rで異常検知(1): これまで自分がやってきたことのおさらい - 渋谷駅前で働くデータサイエンティストのブログ
  • RでGISをやるときにはsfパッケージ、という世の中になるらしい。 - Technically, technophobic.

    RでGISといえばspパッケージです。でした。いま、時代が動こうとしています。 ...という記事を書けるほどのGISの知識が私にはないので、ほんとはもっと勉強してから書くべきなんですけど、とりあえず勉強のためにも調べたことをまとめとこう、と思って書きます。怪しいところがあればツッコミをください。 spパッケージとは spは、data.frameを拡張した地理情報データのためのデータ形式と、それを操作する基礎的な関数群を提供するパッケージです。以下のページの「Reverse depends」や「Reverse imports」を見ればわかるように、数百のパッケージがspに依存しています。 CRAN - Package sp そんなspパッケージの歴史については、以下のブログ記事の前半で触れられています。見てみましょう。 Simple Features Now on CRAN | R Cons

    RでGISをやるときにはsfパッケージ、という世の中になるらしい。 - Technically, technophobic.
  • Rで解析:ピクトグラムでデータを表現!「personograph」パッケージ

    ピクトグラムは情報や避難口などの注意標識などで利用され、人や動物などの図で表現される絵文字の一種です。多くの人が共通に認識できる素晴らしい表現方法の1つだと思います。ヒト型ピクトグラムでデータを表現できるパッケージを紹介します。 パッケージではヒト型ピクトグラムが11種類収録されています。種類は出力例に紹介しますので参考にしてください。 ピクトグラムと聞くと、生存戦略しましょうか!でおなじみの「輪るピングドラム」を何故か思い出します。絵柄がとっつきにくいかもしれませんが、非常にオススメのアニメです。 輪るピングドラムオフィシャルページ http://penguindrum.jp/ パッケージですが、バージョンアップでピクトグラムの種類が増えるようです。今後が楽しみなパッケージの一つです。 パッケージのバージョンは0.1.1。実行コマンドはR version 3.2.2で確認しています。

    Rで解析:ピクトグラムでデータを表現!「personograph」パッケージ
  • 統計・R・Stan関連の本、用途別のオススメ10冊 - StatModeling Memorandum

    2016 - 12 - 24 統計・R・Stan関連の、用途別のオススメ10冊 書評 R Stan 年末年始向けに、比較的読みやすいを中心にオススメします。 統計学 入門 色々読んでみましたが、現在決定版と言えるものは存在しないように思えました。個人的には、シグマと 積分 の復習、場合の数・数え上げの方法、確率、確率変数、確率密度、度数分布と ヒストグラム 、代表値・平均・分散、確率分布、同時分布、周辺分布、確率変数の変数変換、検定、散布図と箱ひげ図、回帰、相関あたりをRなどを使いながらシンプルに説明していくがあるといいと思うのですが、なかなかバランスのとれたいいがありません。初歩の初歩しか説明してない、グラフが少ない、検定にページを割きすぎ、分厚い、ちょっと難しいなどの不満点があります。立ち読みして自分にあったを選ぶのがいいと思います。ネットで検索して調べるのでもいいと思います

    統計・R・Stan関連の本、用途別のオススメ10冊 - StatModeling Memorandum