タグ

ブックマーク / ill-identified.hatenablog.com (16)

  • Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary

    概要 pysocviz が提供する機能 ggplot2 と同じようにできないところとその対策 aes() にクオートされてない変数を指定できない R のように改行できない ggplot2 で使えた色名が使えない ggplot2 で使えた linetype が使えない 文字化けの回避 ggrepel パッケージの利用 scales::percent などの単位・スケール指定 テーマや色パレットのプリセットを変更したい場合 subtitle/caption が表示されない 複数のグラフを連結できない hjust/vjust が使えない グラフ内の図形やテキストの大きさのバランスがおかしい geom_smooth/stat_smooth で一般化加法モデル (GAM) による平滑化ができない geom_quantile の method 指定ができない geom_smooth/stat_smoo

    Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary
  • 三国志で学ぶデータ分析 (原稿写し) - ill-identified diary

    概要この記事は 2019/12/7 に開催された Japan.R の発表原稿である.github.com speakerdeck.com 小難しいテクニックを使ったことをアピールせず, なるべく単純な方法だけで, データから何が言えるのか, 何を示せるのかを作業の流れに沿ってチュートリアル風に説明する, というのがコンセプトである. スクレイピングによるデータの取得, 加工, そして要約統計量の計算やグラフの見せ方, といった事柄はほとんどのデータ分析で必要な基礎技術だと思うので, 実践的な例になると踏んでいた. 当初は 5分間のLTの予定だったので要約統計量 (記述統計量) の見方とかだけを話すつもりだったが, 20分枠に変更したことに合わせてボリュームを増そうとしたらバランスが狂った感じになった. (小難しいことをしないとか言いながら色気を出してディープラーニングに手を出そうとしている

    三国志で学ぶデータ分析 (原稿写し) - ill-identified diary
    xiangze
    xiangze 2020/01/20
  • 計量経済学と機械学習の関係 –AI はさだめ, さだめは反事実 (転送用) - ill-identified diary

    概要この投稿は, 2019年7月15日 に開催された第80回Tokyo.Rでの応用セッションの発表内容を加筆修正したバージョンである. ただし R の話はほとんどなかった. 近年注目を集めている機械学習に対して, 経済学の伝統的な計量経済学 (統計学) がどう影響を受けているか, また逆に機械学習がどのように従来の統計学的なアイディアを取り入れているかについて語る. カバーするトピックはかなり広範囲のため, ある程度の知識がないと難しいだろう. こちらもなるべく簡易に書くよう努力するが, とはいえ高度な話題に対してはそれなりの前提知識を要するのも事実である. 想定読者は, 機械学習か計量経済学の基的なトピックを知っている (例えばいずれかの標準的な教科書を読んで内容をある程度理解している) 人間である. ただし参考文献リストを多く挙げているので, それらを地道にたどればわからないこともな

    計量経済学と機械学習の関係 –AI はさだめ, さだめは反事実 (転送用) - ill-identified diary
    xiangze
    xiangze 2020/01/20
  • [QGIS] [R] QGIS と空間統計モデル (CARモデル) - ill-identified diary

    概要・前置き 以前も何度か R で地図を作る方法を紹介していたが, 自分のプログラミングテクが雑なこともあり, 冗長なコードの掲載であまり便利でないのではという印象を持たれる恐れもあった. そこで, GUI で操作のできるわりに高機能な QGIS (Quantum GIS; QGISプロジェクトへようこそ!) の使い方についても紹介したいと考えていた. すると先日, 岩波DSが発売され, CAR モデルが取り上げられていたので, これと絡めて書くことにした. ただ, 実際は QGIS で直接 CAR の推定はできないので, 今回はあまり QGIS の出番はなく, 空間統計モデルの説明と R へのつなげ方がメインになってしまった…… 次回以降にデータハンドリングの場面での QGIS の強みを紹介したい…… 分量は PDF 換算 6ページ. 空間計量経済モデル主題である CAR ( Condi

    [QGIS] [R] QGIS と空間統計モデル (CARモデル) - ill-identified diary
    xiangze
    xiangze 2019/05/04
  • [メモ] Mendeley: Exodus ~Mendeley から Zotero への移行の手引き~ - ill-identified diary

    Mendeley と Zotero の比較 主な共通点 Zotero の主な長所 Zotero の主な短所 エクソダス, するかい? Better BibTeX for Zotero (BBT) Citation Key についての注意 タイトルの通り, 文献管理の効率化を求めて Mendeley から Zotero に移行する際のメモ. mendeley の機能に不満がある人, zotero に興味がある人には役立つ情報があるかもしれない. www.zotero.org Mendeley と Zotero の比較以下も参考になる.humosy.hatenablog.com humosy.hatenablog.com 主な共通点 文献を階層構造のカテゴリ (コレクション) に分類できる. 文献にタグやリッチテキスト形式のメモを添付可能. 複数のファイルを紐付けることも可能. 重複アイテムの

    [メモ] Mendeley: Exodus ~Mendeley から Zotero への移行の手引き~ - ill-identified diary
    xiangze
    xiangze 2019/03/05
  • [計量経済学] [機械学習] Generalized Random Forest (GRF) について - ill-identified diary

    概要 予備知識のセットアップ 目的は因果推論 一般化モーメント法 (GMM) カーネル回帰 ランダムフォレスト 題 参考文献 概要Athey, Tibshirani, & Wager (2016, Generalized Random Forests) で提案されている Generalized Random Forest (GRF) について解説してみる. [1610.01271] Generalized Random Forests 2019/7/4 追記: この論文は Annals of Statistics にアクセプトされたようだ. projecteuclid.org 計量経済学機械学習の両方の文脈を追う必要が出てくるので, 機械学習を学んできた人, (計量) 経済学を学んできた人, それぞれに対して伝わりやすいように説明を試みる. 先日の Tokyo R #71 で以下のよう

    [計量経済学] [機械学習] Generalized Random Forest (GRF) について - ill-identified diary
    xiangze
    xiangze 2018/08/02
  • [stan][R] RFM分析と階層ベイズ法 (解決編) - ill-identified diary

    概要 前回の『[python] [stan] 潜在変数と階層ベイズ法と RFM 分析 [未完成] - ill-identified diary』の完成版. 忙しくて1年近く放置していた…… パラメータを推定し顧客ごとの生涯顧客価値 (CLV) の計算まで実行できた. stan は 2.14.0 を利用. 前回のは 2.9 で, 2.10 以降は構文が大きく変わっているので注意. 前回の「プログラム」以外のセクションを読んでからこちらを読むことをおすすめする. 文章量は4ページ (画像とプログラム除く) 反省点実は, こちらですでに RF 分析についての stan の一部正解コードが書かれている.abrahamcow.hatenablog.com 前回の一番の問題点は, 原理上離散的なパラメータを扱えないハミルトニアンモンテカルロ (以下, HMC) 法で を無理やり離散パラメータとして扱お

    [stan][R] RFM分析と階層ベイズ法 (解決編) - ill-identified diary
    xiangze
    xiangze 2018/06/13
  • Ubuntu 16.04 で GPU 対応版 TensorFlow をanaconda 環境でインストールした話 - ill-identified diary

    概要巷では Ubuntu 14.04 と CUDA 7.5 の組み合わせが安定しているとのことだが, 仮想環境とか作るのがめんどくさいので Ubuntu 16.04 にインストールした. Linux に詳しい訳ではないので, あくまでこれは解決事例の1つであって正答でなく, 自己責任であることに注意. 環境・バージョン等は以下の通り. 2017/2/4追記: 最新版で再インストールしたのでバージョンの記述を変更した.なお現時点ではCUDAは7.0以上, cuDNNは3以上をサポートしているとTensorFlowに書かれている. デスクトップ PC (AWS などにインストールする方法は探せば他に情報あるはずなのでそっち参照) グラフィックボード: GTX 970 OS: Ubuntu 16.04 (64 bit) -> デスクトップ環境は Xubuntu 推奨 nVidia ドライバ: 3

    Ubuntu 16.04 で GPU 対応版 TensorFlow をanaconda 環境でインストールした話 - ill-identified diary
    xiangze
    xiangze 2018/01/09
    ][TensorFlow]
  • [R] 非ガウシアン状態空間対応パッケージ, KFAS の使い方 - ill-identified diary

    概要 まだ日語情報の少ない KFAS を一連の状態空間モデルネタの続きとして紹介する. KFAS には一番良く使われている dlm パッケージよりも優れた点がいくつもある. 前回のように, パッケージの理念・構文・具体例を用いた実験を順に紹介していく. 状態空間モデルを扱う Rパッケージの中では dlm が最も有名だが, これは名前の示すように動的線形モデル dynamic linear model, すなわちノイズが正規分布になる, ガウシアン線形状態空間モデルしか扱うことができない. これに対して KFAS の長所はいくつもあり, 特に正規分布いがいの分布も扱うことができるという点は特筆すべきである. なお, KFAS を日語で紹介している文献は, 伊東先生の発表スライド, Rパッケージ“KFAS”を使った時系列データの解析方法 from Hiroki Itô 伊東 (2017,

    [R] 非ガウシアン状態空間対応パッケージ, KFAS の使い方 - ill-identified diary
  • [教材] 今更だが, ベイズ統計とは何なのか. - ill-identified diary

    2017/3/17 20:45: 尤度の簡単な説明と、ベイズ統計の応用例についての説明を1つ追加 2017/8/16: 信頼区間, ベイズ統計の定義について補足説明を加筆 2020/8/10 追記: B. Efron and T. Hasite (2016) "Computer Age Statistical Inference: Algorithms, Evidence, and Data Science" はベイズ統計学とそれ以前のパラダイムの立場の違いを明確にした上で(頻度主義統計学の定義をちょっと狭め過ぎな気もするが, 学説史ではないのでそこはまあ...)両者を説明し, 統計学の教科書としてもよくできているのである程度知識のある人はそちらを読んだほうが良い. 『大規模計算時代の統計推論: 原理と発展』というタイトルで邦訳が出ている (ただし私は買ってない) 概要 ベイズ統計と従来型

    [教材] 今更だが, ベイズ統計とは何なのか. - ill-identified diary
  • [R] bsts (ベイズ構造時系列モデル) パッケージの使い方 - ill-identified diary

    概要 ベイズ構造時系列モデリングを行う bsts パッケージは最近リリースされたばかりである. このパッケージはまだ (日語の) 情報が少ないため, ここで理論と応用例を包括的に説明することを試みる. bsts とは, Bayesian Structural Time Series, つまりベイズ (ベイジアン) 構造時系列モデルの略称である. 某有名IT企業の某有名データサイエンティストの方が bsts パッケージの入門記事 tjo.hatenablog.com を書いていたが, より詳細で広範な説明がほしいところであった. 奇しくも bsts の開発者もこの方と同じ企業に所属しているので, 何か特別な思い入れがあるのかとも思ったが, 人はなかなかより詳細な記事を書く気配がないため, しびれを切らして自分が書くことにした (あてつけではない). この記事の残りの構成は次の通り. まず

    [R] bsts (ベイズ構造時系列モデル) パッケージの使い方 - ill-identified diary
  • [R] 計量経済学と機械学習の違い - ill-identified diary

    ユリウス暦2020/1/6更新: その後のこの分野の急速な発展のため, 情報を更新した ill-identified.hatenablog.com 概要 機械学習経済学 (計量経済学) そのいずれかに関してある程度の知識がある人間向け もうすでにこのネタでブログその他がいくつも書かれたと思うがさらにダメ押し 実質的には, Mullainathan and Spiess (2017) のレビューと, 多クラス分類を例にしたデモンストレーション. 前半のレビューと後半のデモンストレーションは実はつながりがあまりないので独立して読むこともできる. エビデンスが弱いものの, 多クラス分類を利用する際に注意すべき点が示唆された. 今回も時間がないので若干手抜き気味 vs 計量経済学はモデルの説明を, 機械学習は予測の精度を求めるということは以前,[異種試合] ディープラーニングVSディープパラメー

    [R] 計量経済学と機械学習の違い - ill-identified diary
  • [R] 回帰分析で適切な方法を使わないとどうなるか (時系列編) - ill-identified diary

    概要 前回 大数の法則の視覚化から理想の推定量を考える - ill-identified diary の最後に上げた具体例の, 時系列分析の場合についても, 推定量の違いから生じる結果を視覚化してみた. 時系列はあまり詳しくないので操作変数編より内容が薄い. 安定な自己回帰 (AR) モデルと, 自己回帰移動平均 (ARMA) モデルの場合のみ. 時系列分析の話なのでそれなりに数式が出てくる. AR・ARMAモデルの基的な話は, 日語なら 沖 (2010, 経済・ファイナンスデータの計量時系列分析) とか Rで計量時系列分析:AR, MA, ARMA, ARIMAモデル, 予測 - 六木で働くデータサイエンティストのブログ とかを参考に. もう少し詳細厳密な話が知りたい場合は, Hamilton (2006, 時系列解析 (上) 定常過程編), Hayashi (2000, Eco

    [R] 回帰分析で適切な方法を使わないとどうなるか (時系列編) - ill-identified diary
  • [stan] [jags] ggmcmc でMCMCの事後診断 - ill-identified diary

    2019/12/15 追記: 現在は ggmcmcよりもbayesplotのほうがおすすめです ill-identified.hatenablog.com 概要これまで, stan などのサンプリング結果を R で処理するのが面倒だと思っていたのだが, いまさら ggmcmc パッケージという便利なものに気づいた. rstan, rjags などの R と連携できるパッケージと組み合わせるとトレースプロットやコレログラム, 事後密度やヒストグラムを簡単に出力してくれるが, 若干使いにくい*1ところもあるので使い方と合わせて改変したものについても言及する. 参考: http://xavier-fim.net/packages/ggmcmc/ 内容ggmcmc の構文は簡単で, 最短で library(ggmcmc) ggmcmc(ggs(stan/jagsの出力オブジェクト), file=フ

    [stan] [jags] ggmcmc でMCMCの事後診断 - ill-identified diary
  • [STAN] [R] STAN の出力加工方法2 DIC の計算 - ill-identified diary

    概要 前回の(R) Stan の出力加工方法 - ill-identified diaryのおまけ的な形で書いた. BUGS には DIC を計算する機能があるらしいが, rstan にはないので書いてみた. Spiegelhalter et al. (2002) で提案された DIC, デビアンス情報量規準はベイズ統計でモデルの選択に用いられる指標である. 詳しい説明は元論文に任せて, この記事では簡単な説明だけに留める. Gelman et al. (2013) の Ch. 7, takehiko-i-hayashi.hatenablog.com, あるいは 小西 (2008) にも少しだけ言及がある*1. 2017/6/9 追記 不勉強だったのでよく理解していなかったのだが, DIC は計算に事後分布の平均を利用しているため、正則モデルに対してのみ有効である. ベイズ統計に特有の複雑

    [STAN] [R] STAN の出力加工方法2 DIC の計算 - ill-identified diary
  • [python] [stan] 潜在変数と階層ベイズ法と RFM 分析 [未完成] - ill-identified diary

    概要 モデル プログラム 用いるデータ 結果 まとめ (暫定) 参考文献 概要2017/2/26 追記: 続編で適切なプログラムを書きました。この記事の「プログラム」のセクションは無視してください。 ill-identified.hatenablog.com 小売業の分析に RFM 分析というものが使われる. ここでは 阿部 (2011) で提案された, RFM 分析と 階層ベイズ法を組み合わせた新しい方法を python 3.4 と stan 2.9 で実装し, 実際の購買データを使って推定してみた. そろそろ RFM 分析について何か書こうかと思った矢先, abrahamcow.hatenablog.com という記事を書かれてしまったが (こちらは RF 分析だが, RFM と質的にあまり違いがない.), MCMC を使う方法は使われてなかったので続きを横取りしてみた*1. pyt

    [python] [stan] 潜在変数と階層ベイズ法と RFM 分析 [未完成] - ill-identified diary
  • 1