xiangzeのブックマーク - はてなブックマーク

Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary

概要 pysocviz が提供する機能 ggplot2 と同じようにできないところとその対策 aes() にクオートされてない変数を指定できない R のように改行できない ggplot2 で使えた色名が使えない ggplot2 で使えた linetype が使えない文字化けの回避 ggrepel パッケージの利用 scales::percent などの単位・スケール指定テーマや色パレットのプリセットを変更したい場合 subtitle/caption が表示されない複数のグラフを連結できない hjust/vjust が使えないグラフ内の図形やテキストの大きさのバランスがおかしい geom_smooth/stat_smooth で一般化加法モデル (GAM) による平滑化ができない geom_quantile の method 指定ができない geom_smooth/stat_smoo

xiangze 2021/08/09

リンク

三国志で学ぶデータ分析 (原稿写し) - ill-identified diary

概要この記事は 2019/12/7 に開催された Japan.R の発表原稿である.github.com speakerdeck.com 小難しいテクニックを使ったことをアピールせず, なるべく単純な方法だけで, データから何が言えるのか, 何を示せるのかを作業の流れに沿ってチュートリアル風に説明する, というのがコンセプトである. スクレイピングによるデータの取得, 加工, そして要約統計量の計算やグラフの見せ方, といった事柄はほとんどのデータ分析で必要な基礎技術だと思うので, 実践的な例になると踏んでいた. 当初は 5分間のLTの予定だったので要約統計量 (記述統計量) の見方とかだけを話すつもりだったが, 20分枠に変更したことに合わせてボリュームを増そうとしたらバランスが狂った感じになった. (小難しいことをしないとか言いながら色気を出してディープラーニングに手を出そうとしている

xiangze 2020/01/20

リンク

計量経済学と機械学習の関係 –AI はさだめ, さだめは反事実 (転送用) - ill-identified diary

概要この投稿は, 2019年7月15日に開催された第80回Tokyo.Rでの応用セッションの発表内容を加筆修正したバージョンである. ただし R の話はほとんどなかった. 近年注目を集めている機械学習に対して, 経済学の伝統的な計量経済学 (統計学) がどう影響を受けているか, また逆に機械学習がどのように従来の統計学的なアイディアを取り入れているかについて語る. カバーするトピックはかなり広範囲のため, ある程度の知識がないと難しいだろう. こちらもなるべく簡易に書くよう努力するが, とはいえ高度な話題に対してはそれなりの前提知識を要するのも事実である. 想定読者は, 機械学習か計量経済学の基本的なトピックを知っている (例えばいずれかの標準的な教科書を読んで内容をある程度理解している) 人間である. ただし参考文献リストを多く挙げているので, それらを地道にたどればわからないこともな

xiangze 2020/01/20

リンク

[QGIS] [R] QGIS と空間統計モデル (CARモデル) - ill-identified diary

概要・前置き以前も何度か R で地図を作る方法を紹介していたが, 自分のプログラミングテクが雑なこともあり, 冗長なコードの掲載であまり便利でないのではという印象を持たれる恐れもあった. そこで, GUI で操作のできるわりに高機能な QGIS (Quantum GIS; QGIS プロジェクトへようこそ!) の使い方についても紹介したいと考えていた. すると先日, 岩波DSが発売され, CAR モデルが取り上げられていたので, これと絡めて書くことにした. ただ, 実際は QGIS で直接 CAR の推定はできないので, 今回はあまり QGIS の出番はなく, 空間統計モデルの説明と R へのつなげ方がメインになってしまった…… 次回以降にデータハンドリングの場面での QGIS の強みを紹介したい…… 分量は PDF 換算 6ページ. 空間計量経済モデル主題である CAR ( Condi

xiangze 2019/05/04

リンク

[メモ] Mendeley: Exodus ~Mendeley から Zotero への移行の手引き~ - ill-identified diary

Mendeley と Zotero の比較主な共通点 Zotero の主な長所 Zotero の主な短所エクソダス, するかい? Better BibTeX for Zotero (BBT) Citation Key についての注意タイトルの通り, 文献管理の効率化を求めて Mendeley から Zotero に移行する際のメモ. mendeley の機能に不満がある人, zotero に興味がある人には役立つ情報があるかもしれない. www.zotero.org Mendeley と Zotero の比較以下も参考になる.humosy.hatena blog.com humosy.hatena blog.com 主な共通点文献を階層構造のカテゴリ (コレクション) に分類できる. 文献にタグやリッチテキスト形式のメモを添付可能. 複数のファイルを紐付けることも可能. 重複アイテムの

xiangze 2019/03/05

リンク

[計量経済学] [機械学習] Generalized Random Forest (GRF) について - ill-identified diary

概要予備知識のセットアップ目的は因果推論一般化モーメント法 (GMM) カーネル回帰ランダムフォレスト本題参考文献概要Athey, Tibshirani, & Wager (2016, Generalized Random Forests) で提案されている Generalized Random Forest (GRF) について解説してみる. [1610.01271] Generalized Random Forests 2019/7/4 追記: この論文は Annals of Statistics にアクセプトされたようだ. projecteuclid.org 計量経済学と機械学習の両方の文脈を追う必要が出てくるので, 機械学習を学んできた人, (計量) 経済学を学んできた人, それぞれに対して伝わりやすいように説明を試みる. 先日の Tokyo R #71 で以下のよう

xiangze 2018/08/02

リンク

[stan][R] RFM分析と階層ベイズ法 (解決編) - ill-identified diary

概要前回の『[python] [stan] 潜在変数と階層ベイズ法と RFM 分析 [未完成] - ill-identified diary』の完成版. 忙しくて1年近く放置していた…… パラメータを推定し顧客ごとの生涯顧客価値 (CLV) の計算まで実行できた. stan は 2.14.0 を利用. 前回のは 2.9 で, 2.10 以降は構文が大きく変わっているので注意. 前回の「プログラム」以外のセクションを読んでからこちらを読むことをおすすめする. 文章量は4ページ (画像とプログラム除く) 反省点実は, こちらですでに RF 分析についての stan の一部正解コードが書かれている.abrahamcow.hatena blog.com 前回の一番の問題点は, 原理上離散的なパラメータを扱えないハミルトニアンモンテカルロ (以下, HMC) 法でを無理やり離散パラメータとして扱お

xiangze 2018/06/13

stan

リンク

Ubuntu 16.04 で GPU 対応版 TensorFlow をanaconda 環境でインストールした話 - ill-identified diary

概要巷では Ubuntu 14.04 と CUDA 7.5 の組み合わせが安定しているとのことだが, 仮想環境とか作るのがめんどくさいので Ubuntu 16.04 にインストールした. Linux に詳しい訳ではないので, あくまでこれは解決事例の1つであって正答でなく, 自己責任であることに注意. 環境・バージョン等は以下の通り. 2017/2/4追記: 最新版で再インストールしたのでバージョンの記述を変更した.なお現時点ではCUDAは7.0以上, cuDNNは3以上をサポートしているとTensorFlowに書かれている. デスクトップ PC (AWS などにインストールする方法は探せば他に情報あるはずなのでそっち参照) グラフィックボード: GTX 970 OS: Ubuntu 16.04 (64 bit) -> デスクトップ環境は Xubuntu 推奨 nVidia ドライバ: 3

xiangze 2018/01/09

][TensorFlow]

リンク

[R] 非ガウシアン状態空間対応パッケージ, KFAS の使い方 - ill-identified diary

概要まだ日本語情報の少ない KFAS を一連の状態空間モデルネタの続きとして紹介する. KFAS には一番良く使われている dlm パッケージよりも優れた点がいくつもある. 前回のように, パッケージの理念・構文・具体例を用いた実験を順に紹介していく. 状態空間モデルを扱う Rパッケージの中では dlm が最も有名だが, これは名前の示すように動的線形モデル dynamic linear model, すなわちノイズが正規分布になる, ガウシアン線形状態空間モデルしか扱うことができない. これに対して KFAS の長所はいくつもあり, 特に正規分布いがいの分布も扱うことができるという点は特筆すべきである. なお, KFAS を日本語で紹介している文献は, 伊東先生の発表スライド, Rパッケージ“KFAS”を使った時系列データの解析方法 from Hiroki Itô 伊東 (2017,

xiangze 2017/09/25

リンク

[教材] 今更だが, ベイズ統計とは何なのか. - ill-identified diary

2017/3/17 20:45: 尤度の簡単な説明と、ベイズ統計の応用例についての説明を1つ追加 2017/8/16: 信頼区間, ベイズ統計の定義について補足説明を加筆 2020/8/10 追記: B. Efron and T. Hasite (2016) "Computer Age Statistical Inference: Algorithms, Evidence, and Data Science" はベイズ統計学とそれ以前のパラダイムの立場の違いを明確にした上で(頻度主義統計学の定義をちょっと狭め過ぎな気もするが, 学説史ではないのでそこはまあ...)両者を説明し, 統計学の教科書としてもよくできているのである程度知識のある人はそちらを読んだほうが良い. 『大規模計算時代の統計推論: 原理と発展』というタイトルで邦訳が出ている (ただし私は買ってない) 概要ベイズ統計と従来型

xiangze 2017/09/24

統計
bayes

リンク

[R] bsts (ベイズ構造時系列モデル) パッケージの使い方 - ill-identified diary

概要ベイズ構造時系列モデリングを行う bsts パッケージは最近リリースされたばかりである. このパッケージはまだ (日本語の) 情報が少ないため, ここで理論と応用例を包括的に説明することを試みる. bsts とは, Bayesian Structural Time Series, つまりベイズ (ベイジアン) 構造時系列モデルの略称である. 某有名IT企業の某有名データサイエンティストの方が bsts パッケージの入門記事 tjo.hatena blog.com を書いていたが, より詳細で広範な説明がほしいところであった. 奇しくも bsts の開発者もこの方と同じ企業に所属しているので, 何か特別な思い入れがあるのかとも思ったが, 本人はなかなかより詳細な記事を書く気配がないため, しびれを切らして自分が書くことにした (あてつけではない). この記事の残りの構成は次の通り. まず

xiangze 2017/09/08

時系列

リンク

[R] 計量経済学と機械学習の違い - ill-identified diary

ユリウス暦2020/1/6更新: その後のこの分野の急速な発展のため, 情報を更新した ill-identified.hatena blog.com 概要機械学習か経済学 (計量経済学) そのいずれかに関してある程度の知識がある人間向けもうすでにこのネタでブログその他がいくつも書かれたと思うがさらにダメ押し実質的には, Mullainathan and Spiess (2017) のレビューと, 多クラス分類を例にしたデモンストレーション. 前半のレビューと後半のデモンストレーションは実はつながりがあまりないので独立して読むこともできる. エビデンスが弱いものの, 多クラス分類を利用する際に注意すべき点が示唆された. 今回も時間がないので若干手抜き気味 vs 計量経済学はモデルの説明を, 機械学習は予測の精度を求めるということは以前,[異種試合] ディープラーニングVSディープパラメー

xiangze 2017/08/01

リンク

[R] 回帰分析で適切な方法を使わないとどうなるか (時系列編) - ill-identified diary

概要前回大数の法則の視覚化から理想の推定量を考える - ill-identified diary の最後に上げた具体例の, 時系列分析の場合についても, 推定量の違いから生じる結果を視覚化してみた. 時系列はあまり詳しくないので操作変数編より内容が薄い. 安定な自己回帰 (AR) モデルと, 自己回帰移動平均 (ARMA) モデルの場合のみ. 時系列分析の話なのでそれなりに数式が出てくる. AR・ARMAモデルの基本的な話は, 日本語なら沖本 (2010, 経済・ファイナンスデータの計量時系列分析) とか Rで計量時系列分析：AR, MA, ARMA, ARIMAモデル, 予測 - 六本木で働くデータサイエンティストのブログとかを参考に. もう少し詳細厳密な話が知りたい場合は, Hamilton (2006, 時系列解析 (上) 定常過程編), Hayashi (2000, Eco

xiangze 2016/10/09

リンク

[stan] [jags] ggmcmc でMCMCの事後診断 - ill-identified diary

2019/12/15 追記: 現在は ggmcmcよりもbayesplotのほうがおすすめです ill-identified.hatena blog.com 概要これまで, stan などのサンプリング結果を R で処理するのが面倒だと思っていたのだが, いまさら ggmcmc パッケージという便利なものに気づいた. rstan, rjags などの R と連携できるパッケージと組み合わせるとトレースプロットやコレログラム, 事後密度やヒストグラムを簡単に出力してくれるが, 若干使いにくい*1ところもあるので使い方と合わせて改変したものについても言及する. 参考: http://xavier-fim.net/packages/ggmcmc/ 内容ggmcmc の構文は簡単で, 最短で library(ggmcmc) ggmcmc(ggs(stan/jagsの出力オブジェクト), file=フ

xiangze 2016/10/08

リンク

[STAN] [R] STAN の出力加工方法2 DIC の計算 - ill-identified diary

概要前回の(R) Stan の出力加工方法 - ill-identified diaryのおまけ的な形で書いた. BUGS には DIC を計算する機能があるらしいが, rstan にはないので書いてみた. Spiegelhalter et al. (2002) で提案された DIC, デビアンス情報量規準はベイズ統計でモデルの選択に用いられる指標である. 詳しい説明は元論文に任せて, この記事では簡単な説明だけに留める. Gelman et al. (2013) の Ch. 7, takehiko-i-hayashi.hatena blog.com, あるいは小西 (2008) にも少しだけ言及がある*1. 2017/6/9 追記不勉強だったのでよく理解していなかったのだが, DIC は計算に事後分布の平均を利用しているため、正則モデルに対してのみ有効である. ベイズ統計に特有の複雑

xiangze 2016/10/02

リンク

[python] [stan] 潜在変数と階層ベイズ法と RFM 分析 [未完成] - ill-identified diary

概要モデルプログラム用いるデータ結果まとめ (暫定) 参考文献概要2017/2/26 追記: 続編で適切なプログラムを書きました。この記事の「プログラム」のセクションは無視してください。 ill-identified.hatena blog.com 小売業の分析に RFM 分析というものが使われる. ここでは阿部 (2011) で提案された, RFM 分析と階層ベイズ法を組み合わせた新しい方法を python 3.4 と stan 2.9 で実装し, 実際の購買データを使って推定してみた. そろそろ RFM 分析について何か書こうかと思った矢先, abrahamcow.hatena blog.com という記事を書かれてしまったが (こちらは RF 分析だが, RFM と本質的にあまり違いがない.), MCMC を使う方法は使われてなかったので続きを横取りしてみた*1. pyt