タグ

rとProgrammingに関するh1saoのブックマーク (28)

  • Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary

    概要 pysocviz が提供する機能 ggplot2 と同じようにできないところとその対策 aes() にクオートされてない変数を指定できない R のように改行できない ggplot2 で使えた色名が使えない ggplot2 で使えた linetype が使えない 文字化けの回避 ggrepel パッケージの利用 scales::percent などの単位・スケール指定 テーマや色パレットのプリセットを変更したい場合 subtitle/caption が表示されない 複数のグラフを連結できない hjust/vjust が使えない グラフ内の図形やテキストの大きさのバランスがおかしい geom_smooth/stat_smooth で一般化加法モデル (GAM) による平滑化ができない geom_quantile の method 指定ができない geom_smooth/stat_smoo

    Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary
  • 統計言語 「R」の神はなぜ無償で貢献したのか

    統計データを分析する際に使う「R」というプログラミング言語がある。無料のオープンソース・ソフトウェアで、Rを使えば、データの加工や操作、線形回帰、ランダムフォレストのような機械学習の分析、解析したデータの可視化が可能になる。「Python(パイソン)」と並び、統計分析を手がける人々に人気の言語だ。 Rはオープンソースのため世界中のエンジニアが修正や機能追加を進めている。その中で、データフレームの操作に特化した「dplyr(ディープライヤー)」やデータ可視化の「ggplot2(ジージープロット2)」など、人気のパッケージ開発で貢献した人物がいる。ソースコードの入力からコンパイルやデバッグまでが可能なRの総合開発環境を提供するRStudioのチーフ・サイエンティスト、ハドリー・ウィッカム氏だ。 ウィッカム氏が独力で作り上げたパッケージは今では大学の研究者からジャーナリストまで、数多くの人間が使

    統計言語 「R」の神はなぜ無償で貢献したのか
  • Spotifyの76,000曲の属性データを分析した結果、J-RockはRockというよりむしろPunkだった

    Do you want to subscribe to the notification email? Once subscribed, notification emails will be sent to your registered email address when the insight is republished or refreshed by the scheduling.

    Spotifyの76,000曲の属性データを分析した結果、J-RockはRockというよりむしろPunkだった
  • R Docker tutorialの訳 - Qiita

    まえおき 以下の文章はR Docker tutorial by ropenscilabsを翻訳したものです。 第1章 Dockerとは何で、何のために使うのか? この章の目的 Dockerの基的な考え方を理解する。 Dockerが便利な理由を確認する。 なぜDockerか Rを使用して分析を行い、出来上がったコードを知人に送りたい、という場合を考えてみよう。あなたの知人が全く同じデータセットを使って全く同じコードを実行したとしても、結果が僅かに異なるということがあるだろう。これには、OSが違うだとか、Rのパッケージのバージョンが違うだとか、いろいろな理由が考えられる。Dockerはこのような問題を解決するための手段になりうる。 Dockerコンテナはコンピュータの中のコンピュータの様に見える。そしてこのコンピュータは知人にそのまま送ることができ、このコンピュータを起動してコードを実行すれ

    R Docker tutorialの訳 - Qiita
  • R, Python, SAS, SPSSをヨーロッパのデータサイエンティストの視点で比べてみた - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 先日、第3の波ーAI機械学習、データサイエンスの民主化という記事の中でも話したように、今では世界中のどこでもデータサイエンスの世界ではRもしくはPythonといったオープンソースのプログラミング言語やツールが広く使われるようになりました。 実際私たちも特にシリコンバレーの様々なタイプのお客様と接することが多々ありますが、最近ではいよいよSASもしくはSPSSといった古くからあるエンタープライズ向けのデータ分析・統計ツールを会社で使用するためにかかる莫大なコストを見直すという圧力が日々大きくなっているようで、新規のプロジェクト、もしくは

    R, Python, SAS, SPSSをヨーロッパのデータサイエンティストの視点で比べてみた - Qiita
  • 第3回 機械学習のためのベイズ最適化入門|Tech Book Zone Manatee

    応用範囲が広く幅広い視点からの説明になりがちなベイズ最適化について、記事では機械学習のハイパーパラメータ探索に利用することに限定して解説します。 1. はじめに 最近、ベイズ最適化という手法が注目を集めています。 ベイズ最適化 (Bayesian Optimization) とは、形状がわからない関数 (ブラックボックス関数) の最大値 (または最小値) を求めるための手法です。 ベイズ最適化についての入門記事は Web 上にすでにいくつかありますが、ベイズ最適化は応用範囲が広く、入門記事は様々な応用に向けた幅広い視点からの説明になりがちです。 記事では、機械学習ユーザに向けて、ベイズ最適化を機械学習のハイパーパラメータ探索に利用することに限定して説明します。 これにより、機械学習に対して、ベイズ最適化がどのように利用できるのかを分かりやすく解説したいと思います。 2. ハイパーパラメ

    第3回 機械学習のためのベイズ最適化入門|Tech Book Zone Manatee
  • R言語徹底解説を読む (1) ようこそRプログラミング - 僕らはRを愛しすぎてる

    この記事が想定する読者層 もしあなたが「プログラマー」ならば、この記事はまるで不要かもしれません。 ここで言うプログラマーとは、たとえば以下のような習慣を持っている人です。 ほとんど同じ処理をソースコード中に2回以上書いていたら違和感を感じる 出力結果が変わらなくても、実行速度や理解しやすさのためにソースコードを書き直すことがある Gitなどのバージョン管理システムを使うことができ、過去のソースコードを「日付の含まれたファイル名でバージョンごとに別ファイルとして保存しておけばよい」とは考えない 動作テストを自動化し、ソースコードを書き換えてもそれぞれの関数の挙動が意図したものになっているかを確認できる この記事は、ひょんなことからRに出会い、コードをコピペで動かせるようになり、 「いつかコピペじゃないコードが書けるようになりたい」 「他のプログラミング言語もできるようになりたい」 とぼんや

    R言語徹底解説を読む (1) ようこそRプログラミング - 僕らはRを愛しすぎてる
  • 【R】ふつうのスクリプト言語プログラマーのためのR言語入門 - 歩いたら休め

    「他のスクリプト言語ならそれなりに触れるけど、Rって変な機能が多いから難しい」と感じている人のために、Rの独特な点、ハマりどころ、そして特にデータの集計での強力な機能やパッケージをまとめてみました。 社内のデータリソース移行の作業の中で、前任者が(良い意味でも悪い意味でも)すごいRプログラマーだったのと、DBからのデータの取得からデータの整形・確認が一気に行えるという理由で久しぶりにRを触りました。 (先輩!僕が「%>%ってなんですか?」みたいな質問すると、チャットでgithubのリンクを貼られたり、AdvancedRを薦められたりするの、めっちゃ困りました!) 数年前Rを使っていたときは、 Rのプログラムってよくわからないなあ…、後から自分のコード見ても意味が読み取れないよ… Pythonでpandasとかmatplotlibってパッケージを使えばRっぽいことができるの?じゃあそっち使お

    【R】ふつうのスクリプト言語プログラマーのためのR言語入門 - 歩いたら休め
  • 挫折しないための「R言語徹底解説」通読法 - 僕らはRを愛しすぎてる

    今年の2月12日、とある書籍をご恵贈いただきました。原題 "Advanced R"の日語版、『R言語徹底解説』。全20章、索引を含めると500ページを超える重厚な訳書です。 原著者のHadley Wickham氏は{ggplot2}や{dplyr}をはじめとするいくつもの強力な拡張ライブラリの作者であり、R言語に革命を起こしたと評されるなど、今やRユーザにとっては欠くことのできない存在となっています。 Advanced R (Chapman & Hall/CRC The R Series) 作者: Hadley Wickham 出版社/メーカー: Routledge メディア: ペーパーバック 参考価格: ¥6,774 この商品を含むブログを見る R言語徹底解説 作者: Hadley Wickham,石田基広,市川太祐,高柳慎一,福島真太朗 出版社/メーカー: 共立出版 発売日: 201

    挫折しないための「R言語徹底解説」通読法 - 僕らはRを愛しすぎてる
  • R Tools for Visual Studioを使ってみよう

    連載目次 R Tools for Visual Studioとは R Tools for Visual Studio(以下、RTVS)は、R言語をVisual Studio(以下、VS)で使用するためのプラグインであり、オープンソースソフトウェアとして公開されている。なおRTVSは、稿執筆時点(2016年3月24日)ではまだパブリックプレビュー段階だ。そのため、製品版のリリース時には稿とは変わる部分が多数あろうことはご承知いただきたい。 R言語は統計解析や機械学習に向いた機能を持ったプログラミング言語(およびその実行環境)だ。RTVSを使用するには、マイクロソフトによるオープンソースなR実装であるMicrosoft R Open(以下、MRO)などを別途インストールする必要がある。 RTVSのインストール 上述の通り、稿執筆時点ではRTVSはプレビュー段階であり、VS 2015 Up

    R Tools for Visual Studioを使ってみよう
  • harold-spm.com

  • R言語でWebアプリケーションを作るためのチュートリアルを翻訳しました - ほくそ笑む

    RStudio社が開発した Shiny パッケージは、R言語で簡単に Web アプリケーションを作るためのフレームワークを提供します。 Shiny この Shiny による Web アプリケーションの開発方法を学ぶには、公式のチュートリアルを読むのが一番です。 Shiny - Tutorial しかし、公式は英語なので、読むのがしんどいです。 そこで、チュートリアル全文を日語に翻訳しました。 訳文は Qiita で公開しています。このページは目次として活用していただければと思います。 Shiny チュートリアル目次 7 つのレッスンからなるこのチュートリアルは、R プログラマを Shiny 開発者へと導きます。 1 つのレッスンは 20 分ほどで終了し、各レッスンごとに新しい Shiny スキルを 1 つ学ぶことができます。 すべてのレッスンを終えたとき、あなたは Shiny アプリを構

    R言語でWebアプリケーションを作るためのチュートリアルを翻訳しました - ほくそ笑む
  • Jupyterがすごい勢いでやってくるからお前ら備えとけ(IPython Notebook + R) - Qiita

    今までIPython Notebook上でRを動かそうとするとrpy2やらをごにょごにょやるとかいう方法がありましたが、いちいち%%を打ったりといろいろ不便でした。 が、先月末(2015/02/27)のIPython 3.0のリリースでIPython Notebookが大きく変わり、(まだ開発版ですが)Rとの連携もかなり楽になりました!というか今後はRだけでなく、Juliaや他の言語もカバーする方向に進むそうで、特定の言語に依存しない部分をJupyterという別プロジェクトでやっていくそうです。 代表的な言語のJupyterカーネルとしては以下のようなものが存在する模様。 Python (https://github.com/ipython/ipython) Julia (https://github.com/JuliaLang/IJulia.jl) R (https://github.c

    Jupyterがすごい勢いでやってくるからお前ら備えとけ(IPython Notebook + R) - Qiita
  • 📦{tm}パッケージで日本語のPDFからテキストを抽出する - cucumber flesh

    男なら誰しも一度は「俺に落とせない女はいない」、的なことを言ってみたいと思うわけですが、どうやらそんなセリフを言う機会がありそうもないので、「俺に落とせないデータはない」くらいにスケールダウンかつハッカー感を出していければと思います。 というわけでタイトルにある通り、日語のPDFからテキストを抽出する方法です。テキストマイニングに特化した{tm}パッケージを使います。 まず、通常の{tm}の挙動を見てから、日PDFへの応用例を示します。 library(tm) 🔧 tm::readPDF() の基動作 PDFからR上にテキストを落とすreadPDF()の基的な使い方です。 対象にするのは、欲しいなー誰か買ってくれないかなーと狙っている "Zero Inflated Models and Generalized Linear Mixed Models with R"の目次PDF

    📦{tm}パッケージで日本語のPDFからテキストを抽出する - cucumber flesh
  • Introduction to Programming Language R

    講義スケジュール 第1回目(9月22日): Rの基礎(1) (2013年10月2日作成, 同年9月25日改訂, 2015年10月1日改訂): 基演算、代入、ベクトル、関数定義 注意: Rではコメントの始まり記号は # です。(プログラミング言語Cとは異なり)//ではありません(エラーになります) 第2回目(9月29日): Rの基礎(2) (2013年10月2日作成、同年 10月2日改訂、2015年10月7日改訂, 2016/9/29訂正) データ型、制御構造、基データ構造 第3回目(10月6日): Rの基礎(3) (2013年10月3日作成, 同年 10月14日、2015年10月13日, 2016年10月6日改訂) データフレーム、入出力、簡単グラフィックス 第4回目(10月13日): Rの基礎(4) (2013年10月7日作成, 同年10月14日改訂, 2015年10月15日改訂)

  • R vs Python:データ解析を比較 | POSTD

    主観的な観点からPythonとRの比較した記事は山ほどあります。それらに私たちの意見を追加する形でこの記事を書きますが、今回はこの2つの言語をより客観的な目線で見ていきたいと思います。PythonとRを比較をしていき、同じ結果を引き出すためにはそれぞれどんなコードが必要なのかを提示していきます。こうすることで、推測ではなく、それぞれの言語の強みと弱みの両者をしっかりと理解できます。 Dataquest では、PythonとRの両方の言語のレッスンを行っていますが、データサイエンスのツールキットの中では両者ともそれぞれに適所があります。 この記事では、NBA選手の2013/2014年シーズンの活躍を分析したデータセットを解析していきます。ファイルは ここ からダウンロードしてください。解析はまずPythonとRのコードを示してから、その後に2つの異なるアプローチを解説し議論していきます。つま

    R vs Python:データ解析を比較 | POSTD
  • e-Stat APIをRから使う - Technically, technophobic.

    ほぼほぼこの記事に書いてある内容なんですけど、httrでやってみたのでメモ。 e-Stat APIとは 政府統計の総合窓口(e-Stat)で提供している統計データを入手できるAPIです。ユーザ登録してAPIキーを生成すると使えます。 今のところ、以下の種類のAPIが用意されています。形式はXMLとJSONとJSONPがありますが、今回はJSON形式のでやってみるので、jsonが返ってくるリクエストURLを書き添えています。 統計表情報取得(getStatsList):統計表の検索 メタ情報取得(getMetaInfo):統計表のメタ情報を取得 統計データ取得(getStatsData):統計表のデータを取得 データセット登録(postDataset):統計データの取得条件を登録しておける データセット参照(refDataset):登録されている取得条件を参照 データカタログ情報取得(get

    e-Stat APIをRから使う - Technically, technophobic.
  • 政府統計の総合窓口(e-Stat)のAPIを使ってみよう [R編] - Qiita

    はじめに Qiita Rアドベント に政府統計ポータル(e-Stat)と R でサンタさんの12月の出費動向を調べてみたという良記事がありました。 とても参考になるのですが、ポータルからマウスで項目をクリックしていくのが大変です。特に最後の方のフェーズではページが強制的にフルスクリーンになってしまい、上記アドベントの操作を確認できなくなります。 そこでAPIを使ってみます。 その前に、e-Stat API を少し触ってみましょう。 公式説明PDFをパクる 恐れおおくも総務省統計局統計センター様謹製PDF の最後の事例をパクります。 RCurl でjson形式のデータを引っ張ってきます。次世代統計システムから取得した自分のアカウントが必要です。以下のコードで yourAPPID の部分を取得したID に変更してください。 さらに加えて、統計表IDや分類表IDが必要なんですが、後述します。 >

    政府統計の総合窓口(e-Stat)のAPIを使ってみよう [R編] - Qiita
  • 政府統計ポータル(e-Stat)と R でサンタさんの12月の出費動向を調べてみた - akiyoko blog

    この投稿は 「R Advent Calendar 2014 - Qiita」 の 25日目の記事です。 Me y Christmas!! ということで今日は、クリスマスですね。 昨晩は、全国のサンタさんが大活躍したのではないでしょうか。 そこで今回は、全国のサンタさんの12月の出費動向を調べてみたい と思います。 なお、初級者向けの記事ですので、中上級者の方は読み飛ばしてくださいませ。 手順 手順は、ざっくり e-Stat(政府統計ポータル)から家計調査の CSV をダウンロード R で CSVデータを読み込む データを加工してグラフを描画 という感じで進めます。 環境 Windows 7 RGui [R Console] (R version 3.1.2) 1. e-Stat から家計調査のCSVデータをダウンロード 1.1. 目的の統計表を選択 e-Stat(政府統計ポータル) にアク

    政府統計ポータル(e-Stat)と R でサンタさんの12月の出費動向を調べてみた - akiyoko blog
  • 【Python】R言語を勉強するために「言語処理100本ノック」をPythonで解いてみる - 歩いたら休め

    会社の先輩から「これ使ったらいい感じにデータ取ってこれるよ」と渡されたものが、 dplyrとかstringrとかよくわからないパッケージをガンガン導入した自由奔放なRのコードで困っています。 R言語自体にも慣れていないため、 「コードを使って何を表現したいのか」と「そのRのパッケージで何をできるのか(またどういう使いどころなのか)」を両方読み解かなければならず、けっこう大変です。 そのコードの中で「いくつか関数の入ったリストを高階関数に渡してfilterかける」ような操作をしていてしっかり読み解いてみたいのですが、 そのコードで取ってきたデータを使いたいだけなので、どうしても後回しにしてしまいます。 というわけで、Rの勉強は家でやることにしました。 「言語処理100ノック」として、ちょうど勉強したいライブラリ(dplyrなど)をいい感じに使ってるRのコードがあったので、 これを題材にしよ

    【Python】R言語を勉強するために「言語処理100本ノック」をPythonで解いてみる - 歩いたら休め