[B! 統計学][R] mahler-5のブックマーク

mahler-5 id:mahler-5

統計学とRに関するmahler-5のブックマーク (11)

青木繁信氏：おしゃべりな部屋　（統計学ほか）
アクセスしていただき，ありがとうございます。このページへのアクセスは，通算 6265344 回目です。（1995年8月31日からカウント開始）フォト蔵ふつれづれなるままにときどき一枚狛犬ギャラリー道祖神ギャラリー
mahler-5 2020/10/12
R

python3

統計学

まとめ

あとで読む

これは便利
リンク
「使い分け」ではなく「妥当かどうか」が大事：重回帰分析＆一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ
先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。今回も参考文献は久保本です。一般化線形モデルまわりではこの本より分かりやすい本は依然としてないと思います。データ解析のための統計モデリング入門――一般化線
mahler-5 2017/10/24
R

統計学

glm
リンク
ビジネス実務の現場で有用な統計学・機械学習・データマイニング及びその他のデータ分析手法10+2選（2016年版） - 渋谷駅前で働くデータサイエンティストのブログ
そう言えば3年前にこんなまとめ的エントリを書いたのでした。この内容はそのままかなりの部分が2年前に刊行した拙著の原案にもなったということで、色々思い出深いエントリです。なのですが。・・・この3年の間に統計学・機械学習・データマイニングの諸手法及びそれを取り巻くビジネスニーズには様々な進歩があり、そろそろこの内容にも陳腐化が目立つようになってきました。ということで、3年間の進歩を反映してアップデートした記事を書いてみようと思います。前回は「10選」でしたが、今回は「10+2選」に改めました。そのラインナップは以下の通り。統計学的検定（t検定・カイ二乗検定・ANOVAなど） t検定カイ二乗検定 ANOVA（分散分析）その他の検定重回帰分析（線形回帰モデル）一般化線形モデル（GLM：ロジスティック回帰・ポアソン回帰など）ロジスティック回帰ポアソン回帰正則化（L1 / L2ノルム
mahler-5 2016/09/28
統計学

あとで読む

R

機械学習

*あとで読む

RandomForest

DeepLearning
リンク
「そのモデルの精度、高過ぎませんか？」過学習・汎化性能・交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ
今年の1月にこんな話題を取り上げたわけですが。この記事の最後にちょろっと書いた通り、実際にはこういう"too good to be true"即ち「そのモデルの精度いくら何でも高過ぎるんじゃないの？」→「実は汎化性能見てませんでした」みたいなケースって、想像よりも遥かに多くこの世の中存在するみたいなんですね。ということで、それこそ『はじパタ』の2章とかPRMLの最初の方に出てくる初歩中の初歩なんですが、その辺の話を改めてだらだら書いてみようと思います。そもそも「精度100%」とか「相関係数0.9以上」とか見たら身構えるべき冒頭に挙げた例は、そもそも「精度100%なんておかしい」という声があちこちから挙がったことで話題になり、蓋を開けてみたらleakageはあるわ訓練誤差でしか評価してないわで散々だったわけです。一般に、実世界のデータセットで統計モデリングにせよ機械学習にせよモデリン
mahler-5 2016/06/17
R

機械学習

過学習

統計学
リンク
RでL1 / L2正則化を実践する - 渋谷駅前で働くデータサイエンティストのブログ
L1 / L2正則化と言えば機械学習まわりでは常識で、どんな本を見てもその数式による表現ぐらいは必ず載ってる*1わけですが、そう言えばあまり実務では真面目にL1 / L2正則化入れてないなと思ったのと、Rでやるなら普通どうするんだろう？と思ったので*2、もはや周回遅れみたいな感じではありますが備忘録的に実践してみようかと思います。 L1 / L2正則化って何だっけということで復習（自分の記憶が合っているかどうかの確認）。。。PRMLにも載ってる有名な図がありますが、あれの説明が直感的には最も分かりやすいかと思います。これは重み付けベクトルが2次元の場合、つまりとを求めるという問題を想定した図です。もうちょっと言えば2次元データに対する分類or回帰問題ということで。基本的には分類器にせよ回帰モデルにせよ、学習データに対する誤差*3を定式化して、これを最小化するように（このケースでは2つの
mahler-5 2016/06/12
正則化

機械学習

R

統計学
リンク
租界〈Ｒ〉の門前にて
◇宣伝！— 三中信宏『みなか先生といっしょに統計学の王国を歩いてみよう：情報の海と推論の山を越える翼をアナタに！』 2015年6月5日刊行，羊土社，東京，191 pp., 本体価格2,300円, ISBN:978-4-7581-2058-6 → 目次｜版元ページ｜コンパニオンサイト ◇連載〈統計の落とし穴と蜘蛛の糸〉羊土社から発行されている雑誌『実験医学』2014年2月号から隔月連載された〈統計の落とし穴と蜘蛛の糸〉記事のオンライン版です． → オンライン連載トップページ第1回　データ解析の第一歩は計算ではない（2014年2月号, pp. 442-447）第2回　データの位置とばらつきを可視化しよう（2014年4月号, pp. 935-940）第3回　データのふるまいをモデル化する（2014年6月号, pp. 1427-1433）第4回　パラメトリック統計学への登り道〔1〕：ば
mahler-5 2015/11/05
R

統計学

資料
リンク
機械学習を用いた予測モデル構築・評価
広島ベイズ塾夏合宿で発表したStanコードの書き方中級編です。回帰分析から，一般化線形モデル，欠損値のあるモデル，潜在変数があるモデル，ゼロ過剰分布，混合分布モデルを扱いました。
mahler-5 2015/10/29
機械学習

R

あとで読む

caret

統計学
リンク
Rで計量時系列分析：VARモデルから個々の時系列データ間の因果関係を推定する - 渋谷駅前で働くデータサイエンティストのブログ
前回の記事ではVARモデルの基礎までを取り上げました。ということで、今回はVARモデルに基づいて異なる時系列同士の因果関係を推定する3つの手法について取り上げてみようと思います。ということで毎回毎回しつこいですが、使用テキストはいつもの沖本本です。経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者:竜義, 沖本朝倉書店Amazon 以下タイトルにのっとってRで各モデルの挙動を見ながらやっていきます。必要なRパッケージ＆サンプルデータ {vars}をインストールして展開して下さい。なお、Granger因果のグラフ構造表現及び偏Granger因果は、実はそもそもRでは実装されていません。ここだけMatlabの話題になりますので、悪しからずご了承を。。。それから今回のサンプルデータですが、また{vars}同梱のCanadaでは芸がないので違うデータを使うことにします。沖
mahler-5 2015/05/26
R

時系列解析

統計学
リンク
R による統計処理
「Rによる統計解析」オーム社刊サポートページ目次第1章　Rを使ってみる第2章　データの取り扱い方第3章　一変量統計第4章　二変量統計第5章　検定と推定第6章　多変量解析第7章　統合化された関数を利用する第8章　データ分析の例付録A　Rの解説付録B　Rの参考図書などはじめに R とは何か，何ができるかのリンク集（日本のもののみ） R を使うためにはどうしたらいいの？データなどの読み書き R の定石（R に限らずプログラミングの定石も） R を使って実際に統計解析をする AtoZ 一連の流れデータファイルの準備をする分析してみる分析結果を LaTeX で処理したり，ワープロに貼り込んだりする道具立て連続変数データをカテゴリーデータに変換カテゴリーデータの再カテゴリー化度数分布表と度数分布図の作成散布図・箱髭図の描画クロス集計（独立性の検定，フィ
mahler-5 2015/03/02
R

資料

検定

統計学

青木先生

これは便利
リンク
Webデータ分析＆データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。主に自分向けのまとめという意味合いが強いんですが（笑）、僕が実際に2013年6月現在webデータ分析＆データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。追記回帰分析（特に線形重回帰分析）独立性の検定（カイ二乗検定・フィッシャーの正確確率検定）主成分分析(PCA) / 因子分析クラスタリング決定木 / 回帰木サポートベクターマシン(SVM) ロジスティック回帰ランダムフォレストアソシエーション分析（バスケット分析・相関ルール抽出）計量時系列分析おわりにおまけ1：「素性ベクトル＋分類ラベル」なるデータ前処理おまけ2：グラフ理論*10 {igraph}パッケージでグラ
mahler-5 2013/09/29
あとで読む

R

統計学

機械学習
リンク
統計解析用フリーソフト・R-Tips
R は有名な統計言語『 S 言語』をオープンソースとして実装し直した統計解析ソフトです．さまざまなプラットフォーム（OS）に対応しており，誰でも自由にダウンロードすることができます．それにも関わらず，世界中の専門家が開発に携わっており，日々新しい手法・アルゴリズムが付け加えられています．とにかく計算が速い上にグラフィックも充実しているので数値計算などにも持ってこいです．このドキュメントは Windows 版 R と Mac OS X 版 R（と一部 Linux 版 R ）でコマンドを調べた足跡です．ちなみに，この頁の内容を新しくした書籍はこちら，電子書籍版はこちらで販売されております．
mahler-5 2013/02/10
プログラミング

資料

R

統計学

まとめ

これは便利
リンク
1