アクセスしていただき,ありがとうございます。 このページへのアクセスは,通算 6265344 回目です。 (1995年8月31日 からカウント開始) フォト蔵ふ つれづれなるままに ときどき一枚 狛犬ギャラリー 道祖神ギャラリー
先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。 今回も参考文献は久保本です。一般化線形モデルまわりではこの本より分かりやすい本は依然としてないと思います。 データ解析のための統計モデリング入門――一般化線
そう言えば3年前にこんなまとめ的エントリを書いたのでした。この内容はそのままかなりの部分が2年前に刊行した拙著の原案にもなったということで、色々思い出深いエントリです。 なのですが。・・・この3年の間に統計学・機械学習・データマイニングの諸手法及びそれを取り巻くビジネスニーズには様々な進歩があり、そろそろこの内容にも陳腐化が目立つようになってきました。ということで、3年間の進歩を反映してアップデートした記事を書いてみようと思います。前回は「10選」でしたが、今回は「10+2選」に改めました。そのラインナップは以下の通り。 統計学的検定(t検定・カイ二乗検定・ANOVAなど) t検定 カイ二乗検定 ANOVA(分散分析) その他の検定 重回帰分析(線形回帰モデル) 一般化線形モデル(GLM:ロジスティック回帰・ポアソン回帰など) ロジスティック回帰 ポアソン回帰 正則化(L1 / L2ノルム
今年の1月にこんな話題を取り上げたわけですが。 この記事の最後にちょろっと書いた通り、実際にはこういう"too good to be true"即ち「そのモデルの精度いくら何でも高過ぎるんじゃないの?」→「実は汎化性能見てませんでした」みたいなケースって、想像よりも遥かに多くこの世の中存在するみたいなんですね。ということで、それこそ『はじパタ』の2章とかPRMLの最初の方に出てくる初歩中の初歩なんですが、その辺の話を改めてだらだら書いてみようと思います。 そもそも「精度100%」とか「相関係数0.9以上」とか見たら身構えるべき 冒頭に挙げた例は、そもそも「精度100%なんておかしい」という声があちこちから挙がったことで話題になり、蓋を開けてみたらleakageはあるわ訓練誤差でしか評価してないわで散々だったわけです。 一般に、実世界のデータセットで統計モデリングにせよ機械学習にせよモデリン
L1 / L2正則化と言えば機械学習まわりでは常識で、どんな本を見てもその数式による表現ぐらいは必ず載ってる*1わけですが、そう言えばあまり実務では真面目にL1 / L2正則化入れてないなと思ったのと、Rでやるなら普通どうするんだろう?と思ったので*2、もはや周回遅れみたいな感じではありますが備忘録的に実践してみようかと思います。 L1 / L2正則化って何だっけ ということで復習(自分の記憶が合っているかどうかの確認)。。。PRMLにも載ってる有名な図がありますが、あれの説明が直感的には最も分かりやすいかと思います。これは重み付けベクトルが2次元の場合、つまりとを求めるという問題を想定した図です。もうちょっと言えば2次元データに対する分類or回帰問題ということで。 基本的には分類器にせよ回帰モデルにせよ、学習データに対する誤差*3を定式化して、これを最小化するように(このケースでは2つの
◇宣伝!— 三中信宏『みなか先生といっしょに 統計学の王国を歩いてみよう:情報の海と推論の山を越える翼をアナタに!』 2015年6月5日刊行,羊土社,東京,191 pp., 本体価格2,300円, ISBN:978-4-7581-2058-6 → 目次|版元ページ|コンパニオンサイト ◇連載〈統計の落とし穴と蜘蛛の糸〉 羊土社から発行されている雑誌『実験医学』2014年2月号から隔月連載された〈統計の落とし穴と蜘蛛の糸〉記事のオンライン版です. → オンライン連載トップページ 第1回 データ解析の第一歩は計算ではない(2014年2月号, pp. 442-447) 第2回 データの位置とばらつきを可視化しよう(2014年4月号, pp. 935-940) 第3回 データのふるまいをモデル化する(2014年6月号, pp. 1427-1433) 第4回 パラメトリック統計学への登り道〔1〕:ば
前回の記事ではVARモデルの基礎までを取り上げました。ということで、今回はVARモデルに基づいて異なる時系列同士の因果関係を推定する3つの手法について取り上げてみようと思います。 ということで毎回毎回しつこいですが、使用テキストはいつもの沖本本です。 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者:竜義, 沖本朝倉書店Amazon 以下タイトルにのっとってRで各モデルの挙動を見ながらやっていきます。 必要なRパッケージ&サンプルデータ {vars}をインストールして展開して下さい。なお、Granger因果のグラフ構造表現及び偏Granger因果は、実はそもそもRでは実装されていません。ここだけMatlabの話題になりますので、悪しからずご了承を。。。 それから今回のサンプルデータですが、また{vars}同梱のCanadaでは芸がないので違うデータを使うことにします。沖
「Rによる統計解析」 オーム社 刊 サポートページ 目次 第1章 Rを使ってみる 第2章 データの取り扱い方 第3章 一変量統計 第4章 二変量統計 第5章 検定と推定 第6章 多変量解析 第7章 統合化された関数を利用する 第8章 データ分析の例 付録A Rの解説 付録B Rの参考図書など はじめに R とは何か,何ができるかのリンク集(日本のもののみ) R を使うためにはどうしたらいいの? データなどの読み書き R の定石(R に限らずプログラミングの定石も) R を使って実際に統計解析をする AtoZ 一連の流れ データファイルの準備をする 分析してみる 分析結果を LaTeX で処理したり,ワープロに貼り込んだりする 道具立て 連続変数データをカテゴリーデータに変換 カテゴリーデータの再カテゴリー化 度数分布表と度数分布図の作成 散布図・箱髭図の描画 クロス集計(独立性の検定,フィ
追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ
R は有名な統計言語『 S 言語』をオープンソースとして実装し直した統計解析ソフトです.さまざまなプラットフォーム(OS)に対応しており,誰でも自由にダウンロードすることができます.それにも関わらず,世界中の専門家が開発に携わっており,日々新しい手法・アルゴリズムが付け加えられています.とにかく計算が速い上にグラフィックも充実しているので数値計算などにも持ってこいです.このドキュメントは Windows 版 R と Mac OS X 版 R(と一部 Linux 版 R )でコマンドを調べた足跡です. ちなみに,この頁の内容を新しくした書籍は こちら ,電子書籍版は こちら で販売されております.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く