第94回Tokyo.Rでトークした際のスライド資料です。
一般社団法人データサイエンティスト協会(所在地:東京都港区、代表理事:草野 隆史、以下データサイエンティスト協会)は、構造化データの加工について実践的に学ぶことができる無料の学習環境「データサイエンス100本ノック(構造化データ加工編)」をGitHubに公開しました。 「データサイエンス100本ノック(構造化データ加工編)」は、データサイエンス初学者を対象に、データの加工・集計、統計学や機械学習を駆使したモデリングの前処理等を学べるよう、データと実行環境構築スクリプト、演習問題をワンセットにしています。 近年、データ活用の重要性についての認知が広がる中で、書籍やWebサイトなど、データ分析のスキル向上に役立つ情報源も多く提供されています。一方で、実践するための「データ」や「プログラミング実行環境」を持ち合わせていないことも多く、「実践力」を身につける機会が限られていました。特に、「構造化デ
はじめに みなさん rocker してますか? rocker を使うと Docker で R ± RStudio できるので 複数のマシンにセットアップ R本体やパッケージのバージョンを管理 といったことが簡単になって便利です.先日の Tokyo.R でも話題になりました (Rにおけるバージョン管理とプロジェクト運用 / rstudio-for-team by @u_ribo 氏) GitPod に R を導入するのもとっても簡単ですヨ (atusy/gitpodr). さて, rocker の Dockerfile では eddelbuettel/littler パッケージ由来の install2.r を用い,R のパッケージの導入をシェルスクリプトらしい文法で実現しています. (下記). install2.r --error --deps TRUE \ dplyr \ tidyr \
2020年1月25日に行われた第83回Tokyo.Rでの発表資料です https://tokyor.connpass.com/event/161709/ 資料で使われたコードは以下になります https://github.com/dropout009/tokyoR83
この記事では、状態空間モデルをStanで推定するときの収束を良くするコツを説明します。 コードはGitHubから参照できます。 状態空間モデルは説明能力が高く、データに合わせて柔軟に構造を変えることができます。しかし、あまりに複雑な構造を指定すると、結果が収束しないこともしばしばあります。 収束が悪い時には、弱情報事前分布を指定したり、MCMC実行時の設定を変える(iterやwarmupを増やす等)で対応することが多いと思います。こちらの方法で多くの場合は解決しますが、複雑なモデルですと、そもそものStanコードの実装の方法から変えた方が良いかもしれません。 この記事では、状態空間モデルの収束を良くするために、Stanコードの書き方を工夫するやり方を紹介します。 良いやり方は無いかなと調べていたところ『Bayesian structural time series modeling』という
機械学習・データサイエンスのチートシート集、便利なものがたくさん出回っていますが、ちまちまブラウザからダウンロードしていたりしませんか?そんな貴方にお勧めなのがこちらのレポジトリ。 FavioVazquez/ds-cheatsheets https://github.com/FavioVazquez/ds-cheatsheets はい、クリックあるいはコマンド一つで100を超えるチートシートが一括でダウンロードできちゃいますね。以上、釣りタイトル失礼しました。 と、これだけではなんなので、個人的に有用性が高いと感じたものを、大きなサムネイル付きでまとめてみました。ソースとして、DataCamp及びRStudio公式ページの情報量は圧倒的なので、一読をお勧めします。 科学計算・データ操作・可視化 Python (NumPy/SciPy/Pandas/matplotlib/bokeh) Pyt
ggplot2公式サイト:http://ggplot2.tidyverse.org/ チートシート: https://www.rstudio.com/resources/cheatsheets/(「Data Visualization Cheat Sheet」がggplot2) ggplot2逆引き…
新規作成:2018年03月05日 最終更新:2018年03月06日 この記事は、時系列分析をこれから学ぼうとされる方のためのブックガイドです。 書籍によってカバーされている範囲、R言語などのプログラミング言語を援用しているかしていないか、そして書籍の難易度などをまとめています。 また、私自身、「時系列分析と状態空間モデルの基礎」という時系列分析の入門書を執筆しており、この本がどのような立ち位置にあるのかも説明しています。 目次 書籍紹介 時系列分析のトピック 状態空間モデルの分類 古典的な時系列モデルを学ぶことの意義 書籍で扱われている内容の比較 隼時系列本の立ち位置 1.書籍紹介 Rによる実装なし 沖本(2010)『計量時系列分析』 以下「沖本本」と略します。 実用的でバランスも良く、当サイトでも強く推している書籍です。 ARIMA・GARCH・見せかけの回帰などが丁寧に説明されています
ニューロンの個数を2パタン。 データへの依存度を3パタン用意すると、2×3=6パタンも試さなければなりません。 大変に面倒ですが、このハイパーパラメタを雑に設定すると予測精度が落ちてしまうこともよくあります。 めんどくさいですが、なるべくやったほうがいいです。 4.モデルを使って予測する これは簡単。単に予測をするだけです。 パッケージを使っていれば、たいていは予測用の関数が用意されています。 5.予測の評価をする 最後は評価です。 評価をすることによって、 ・どの手法の ・どのパッケージの ・どのパラメタを 採用すべきかを判断します。 で、一番予測精度がいいやつを使って予測することになります。 たくさんの手法、たくさんのパッケージ、たくさんのパラメタの組み合わせをしらみつぶしに評価する。 普通にこれをやろうと思うと、気が遠くなってしまいますね。 そこで登場するのがパッケージ「caret」
Commandeur & Koopman「状態空間時系列分析入門」をRで再現する 仕事の都合で仕方なく状態空間モデルについて勉強していたのだけれど(なぜ私がこんな目に)、仕事で使うためには自分で計算できるようにならなければならない。 参考にしているCommandeur & Koopman 「状態空間時系列分析入門」(以下「CK本」)の著者らは、すべての事例についてデータとプログラムを公開している。ありがたいことであります。しかし、ssfpackという耳慣れないソフトを使わなければならない。わざわざ新しいソフトの使い方を覚えるのは大変に面倒だ。できれば普段使っているソフトで済ませたい。 というわけで、勉強かたがた、CK本に出てくる計算例を片っ端から R で再現してみた。汗と涙の甲斐あって、すべての章についていちおう再現できたので、ここに載せておくことにする。 もくじ: Rプログラム紹介 全体
タイトルの本を頂きました。ありがとうございます。僕は原著を少し読んだことがあり、こちらで非常に評判が高い本です。翻訳にもかかわらず原著とほぼ同じ値段で購入できます。 先にJAGSになじみのない方へ説明しておきますと、JAGSはRコアメンバーの一人でもあるMartyn Plummer氏によってC++で開発されたMCMCソフトウェアです。Rから使うのが多数派ですが、PythonからもPyJAGSによって使うことができます。 複雑なモデルでなければStanより収束が早く、離散値をとるパラメータも使えるため、プログラミングがそんなに得意でない人がベイズ統計モデリングをはじめるには一番向いていると思います。最近、再び活発に開発され始めたようで、先日JAGS 4.3.0がリリースされました。 JAGS 4.3.0 is released https://t.co/3jExabWcPI— Martyn
先日、以下のイベントで話しました。 『StanとRでベイズ統計モデリング』読書会(Osaka.Stan#5) : ATND 発表資料は以下です。 MCMCサンプルの使い方 ~見る・決める・探す・発生させる~ from Kentaro Matsuura 理論的には事後分布や予測分布の使い方というのが正しいですが、プログラミング言語との相性を考えてMCMCサンプルの使い方というタイトルにしました。自著ではモデリングのやり方の体得にフォーカスしていますが、事後分布や予測分布が得られるメリットについては分野や人によって異なるので詳細は省きました。いつか補おうと思っていたので良い機会でした。 読書会では、小杉先生の発表やLTもめちゃ面白く、東京のStan勉強会では見たことがない盛り上がりを見ました。ネット上でしか知らなかったベイジアンにたくさん会って話すことができてよかったです。調子に乗って3次会ま
Rによる美しいグラフの作成に欠かせないパッケージ "ggplot2" ですが、 グラフ作成のたびにネット検索したり自分の以前のコードを掘り起こしたりしませんか? author: Unadon (見習い飯炊き兵) 動作環境:Mac OS Sierra 10.12.1; R version3.3.1; rstan 2.10.1 まずはTwitterでこの記事をシェアする はじめに ggplot2のグラフ作成で迷った時、チートシートやマニュアルは役に立つけど援用しにくいんですよね。「何を言ってるのかわからない」っていうのが結構あります。 「軸ラベル」と「軸タイトル」ってどれがどれなん?など、そういう初歩的なところで引っかかったりして、 目的(こういう図にしたい!)と手段(コード)の間の知識を埋めるのが手間で「もうイヤ!」ってなる。 で、次すぐに忘れてる。 なので、頻繁に使用するggplot2の基
IPythonからいつの間にか名前を変えていたJupyterですが、名前を変更した理由が「Python以外にも対応してきたし、IPythonって名前はおかしいんじゃね!?」ということらしい。 その恩恵にあやかって、Jupyter上でRを使って開発できるように環境を作る。 作業環境 MacOS X Yosemite Jupyter 1.0.0 (Python 3.4.4 :: Anaconda 2.4.1) R 3.2.2 Jupyterはpyenvから入れたAnacondaに入っていたもので、RはHomeBrewを使って入れました。 以上の状態でRを立ち上げてコンソールに入り、以下のようにコマンドを実行。 追記 2017/07/10 13:46 コメントでインストールコマンドが古くなっていると頂いたので、新しいものに修正 > install.packages(c('repr', 'IRdi
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く