タグ

統計と機械学習に関するpetite_blueのブックマーク (21)

  • コグニカル

    コグニカルは、足りない知識をツリー構造で掘り下げられる学習サイトです。

  • 事前分布について

    渡辺ホームに戻る 私たちの研究室で行ってきた研究成果の中に ベイズ法や変分ベイズ法の数学的構造の解明があります. その発表の際に事前分布あるいは事前確率について尋ねられることが多いので, まとめておくことにしました. ☆☆☆ 統計モデルおよび事前分布については,100年近く以前の誤った考えがあまりにも広まってしまっているので, 多くの人にとって,このページを読むためには先入観や「解説の説明」をいったん忘れて, 自分自身で考えていただく必要があるかもしれません. 以下で説明することは現代の統計学者にとってはごく普通のことです. 普通すぎるので改めて言葉で語られることがないだけです. (注1)【ベイズ法は主観的で・最尤法は客観的】という意見は100年くらい前の誤った考えです. ベイズ法でも最尤法でも「統計モデルが主観的に定められている」という点は同じです(注3,注4)。 事前分布はモデリング

  • 機械学習で抑えておくべき損失関数(回帰編) - HELLO CYBERNETICS

    はじめに ニューラルネットワーク 損失関数を考えるモチベーション 回帰の損失関数 色々な損失関数 二乗損失 分位損失 Huber損失 感度損失(ε-許容損失) 損失関数の図示 二乗損失 分位損失 Huber損失 ε-感度損失(ε-許容損失) 比較 損失関数の使い分け1 損失関数の使い分け2 損失関数の使い分け3 最後に 分類に関する損失関数 はじめに 機械学習における教師あり学習では、入力に対してパラメータを用いて関数を構築し、正解データに対して損失を定義し、これを最小化する手続きを取ります。 損失を、色々なとの組に対して計算し、その総和が最小化されるようにを決めることを学習と呼びます。これにより未知のデータを入力した時に、それに対する正解をが出力してくれることを期待するのです。 学習がの最小化という目標に従っている以上、このをどのような形にするのかが重要になるのは言うまでもありません。

    機械学習で抑えておくべき損失関数(回帰編) - HELLO CYBERNETICS
  • 動的時間伸縮法 / DTW (Dynamic Time Warping) を可視化する - StatsFragments

    いま手元に 20万件くらいの時系列があって、それらを適当にクラスタリングしたい。どうしたもんかなあ、と調べていたら {TSclust} というまさになパッケージがあることを知った。 このパッケージでは時系列の類似度を測るためのさまざまな手法 (=クラスタリングのための距離) を定義している。うちいくつかの手法を確認し、動的時間伸縮法 / DTW (Dynamic Time Warping) を試してみることにした。 DTWの概要 時系列相関 (CCF) の場合は 片方を 並行移動させているだけなので 2つの系列の周期が異なる場合は 相関はでにくい。 DTW では 2つの時系列の各点の距離を総当りで比較した上で、系列同士の距離が最短となるパスを見つける。これが DTW 距離 になる。そのため、2つの系列の周期性が違っても / 長さが違っても DTW 距離を定義することができる。 アルゴリズム

    動的時間伸縮法 / DTW (Dynamic Time Warping) を可視化する - StatsFragments
  • イェンセン(Jensen)の不等式の直感的理解 - Qiita

    確率変数に関するイェンセン(Jensen)の不等式を、例を用いて直感的に理解してみようという記事です。 $x$を確率変数、$p(x)$をxの確率密度関数とすると、その期待値$E[x]$は が成り立つことを、 イェンセン(Jensen)の不等式と呼びます。この証明は既に色々なところで解説(例えばこちら)されていますのでここでは省略します。 この不等式 $f(E[x]) \ge E[f(x)]$ を直感的に理解するために、乱数を用いた例をグラフで表現してみます。 まず、xが正規分布に従う確率変数だとして、そこから発生する乱数を作ってみます。また、そのxを $f(x)=-x^2+10$ という上に凸な関数で変換します。 下記のグラフの上部にあるヒストグラムが正規分布に従うxの分布で、右側にあるヒストグラムが$x^2$が従う分布です。 つまり、イェンセンの不等式は下記の赤い丸(期待値をとってから、

    イェンセン(Jensen)の不等式の直感的理解 - Qiita
  • 実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ

    気が付いたら僕がデータ分析業界に身を置くようになってそろそろ5年近くになるんですね*1。この5年間の間に色々勉強したり業界内で見聞してきた経験をもとに、「実務の現場においてモデリングを行う上での注意点」についてだらだらと書いてみようと思います。 と言うのも、色々な現場で様々なモデリング(統計学的にせよ機械学習的にせよ)が行われていることが伝わってくるようになった一方で、ともすれば「え?こんな基礎的なポイントも守ってないの?」みたいなとんでもないモデリングがまかり通る現場があると愚痴る声を業界内で聞くことが少なくないので。自戒の意も込めて重要なポイントを備忘録としてブログ記事にまとめておくのも有益かなと思った次第です。 この記事では手法選択(線形・一般化線形・ベイズ+MCMC・識別関数・識別モデル・生成モデル・樹木モデル・Deep Learning etc.)の話題は割愛しました。一般に、モ

    実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ
  • ガウス過程の定義と存在を測度論の言葉を使って、出て来る言葉の定義を全て与えて、ごまかさないで、しっかりと、数学的に説明してみようと思ったけど、ただの機械学習のための測度論的確率論超絶速習コースになってしまいました。 - Obey Your MATHEMATICS.

    こんにちは。 今回は、このブログを読んでいる機械学習界隈の人なら必ず一度は聞いたことがあるであろう ガウス過程(Gaussian Process) についてです。かの有名な悪名高いPRMLにも頻繁に登場しますし、機械学習や論文にはしょっちゅう出て来る存在だと思います。僕の大好きなベイズ最適化 mathetake.hatenablog.com においても非常に重要な数学的概念です。 ガウス過程の説明でよくあるあるのは、 「確率変数の集まりであって、有限個取った場合にその同時分布はガウシアンである」 と言うものですが、、、。 肝心なのは、皆さん、 ・確率変数って何か分かってますか? ・確率分布ってなにか分かってますか? ・そもそも確率って何か分かっていますか? と言う話なのです。曖昧な土台の上で議論や話を進めるの、もうやめにしませんか?気持ち悪くありませんか? そして重要なのは、ガウス過程

  • Cross Validated

    Stack Exchange Network Stack Exchange network consists of 183 Q&A communities including Stack Overflow, the largest, most trusted online community for developers to learn, share their knowledge, and build their careers. Visit Stack Exchange

    Cross Validated
    petite_blue
    petite_blue 2016/11/22
    質問回答サイト
  • MIT、マルコフ連鎖モンテカルロ法を高速化するアルゴリズムを発表

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます マサチューセッツ工科大学(MIT)の研究者らは、マルコフ連鎖モンテカルロ法(MCMC)を現在よりも最大で200倍高速化できるアルゴリズムを開発したと発表した。 MITのこのアルゴリズムは、ほとんどすべての計算モデルに適用できる。このアルゴリズムの目的は、問題中に存在する未知のパラメータの値を局所近似から推定することで、対象となる解を絞り込むというものだ。 発表のなかで、MITはこのアルゴリズムについて以下のように述べている。 このアルゴリズムは、モデルを複数回実行するなかで、いくつかの適切なデータ点を組み合わせていくことにより解、すなわち未知のパラメータそれぞれの確率分布をインクリメンタルなかたちで絞り込んでいくものだ。そういった点で、

    MIT、マルコフ連鎖モンテカルロ法を高速化するアルゴリズムを発表
  • 階層ベイズモデルとWAIC - StatModeling Memorandum

    この記事では階層ベイズモデルの場合のWAICとは何か、またその場合のWAICの高速な算出方法について書きます。 背景 以下の2つの資料を参照してください。[1]に二種類の実装が載っています。[2]に明快な理論的補足が載っています。 [1] 階層ベイズとWAIC (清水先生の資料です、slideshare) [2] 階層ベイズ法とWAIC (渡辺先生の資料です、pdf, html) モデル1 資料[1]にあるモデルを扱います。すなわち、 ここでは人数、は人のインデックスです。は個人差を表す値になります。このモデルにおいてはを解析的に積分消去することができて、負の二項分布を使う以下のモデル式と等価になります。 ここでは予測として(WAICとして)2通り考えてみましょう。 以降では事後分布による平均を、分散をと書くことにします。 (1) を持つが、追加で新しく1つのサンプルを得る場合 この場合に

    階層ベイズモデルとWAIC - StatModeling Memorandum
  • 【統計学】尤度って何?をグラフィカルに説明してみる。 - Qiita

    統計学や機械学習をを勉強していると「尤度」という概念に出会います。まず読めないというコメントをいくつかいただきましたが、「尤度(ゆうど)」です。「尤もらしい(もっともらしい)」の「尤」ですね。犬 じゃありませんw 確率関数や確率密度関数を理解していれば数式的にはこの尤度を処理できると思うのですが、少し直感的な理解のためにグラフィカルに解説を試みたいと思います。 コードの全文はGithub( https://github.com/matsuken92/Qiita_Contents/blob/master/General/Likelihood.ipynb )にも置いてあります。 正規分布を例にとって 正規分布の確率密度関数は f(x)={1 \over \sqrt{2\pi\sigma^{2}}} \exp \left(-{1 \over 2}{(x-\mu)^2 \over \sigma^2

    【統計学】尤度って何?をグラフィカルに説明してみる。 - Qiita
  • Stan

    Stan is a state-of-the-art platform for statistical modeling and high-performance statistical computation. Many thousands of users rely on Stan for statistical modeling, data analysis, and prediction in the social, biological, and physical sciences, engineering, and business. Stan interfaces with the most popular data analysis languages (R, Python, shell, MATLAB, Julia, Stata) and runs on all majo

    Stan
  • 統計的因果推論(傾向スコア)の勉強会資料をアプしてみた - Take a Risk:林岳彦の研究メモ

    みなさまお久しぶりです。私はけっきょくminor revisionに三ヶ月もかかってしまい他の仕事にしわ寄せキまくってます。 今回は某勉強会で傾向スコアを扱ったのでその勉強会資料をアップしてみます(環境によってはサムネ画像がでないかも)。 傾向スコア:その概念とRによる実装 View more presentations from takehikoihayashi *上のファイルはプレゼン用(差分)なので印刷用PDF資料としてはこちらのファイル( PSAseminar_file20120426.pdf )をどうぞ。 *追記:上記のプレゼン内で使っているRのscriptのfileもどうぞ( PropScore_Rscript.R ) 傾向スコアってなにそれおいしいの? 傾向スコアとは何かというと、実験ができない場合(調査観察データなど)における交絡の調整方法です。(一応言っておきますが交絡を

  • 統計的機械学習入門 | 中川研究室

    教科書は東京大学 工学教程 情報工学の「機械学習」です。現在は試作版を使っていますが、来年度までには市販版を刊行する予定です。 導入pdf 情報の変換過程のモデル化 ベイズ統計と例題(機械翻訳など) 教師あり学習と教師なし学習 識別モデルと生成モデル 最尤推定、MAP推定 データの性質と表現 Bayes推論pdf Bayesによる確率分布推定の考え方 多項分布、ディリクレ分布 事前分布としてのディリクレ分布の意味 1次元正規分布と事後分布 多次元正規分布 条件付き正規分布 指数型分布族 自然共役事前分布の最尤推定 線形回帰および識別pdf 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化 正則化項のBayes的解釈 線形識別 2乗誤差最小化の線形識別の問題点 生成モデルを利用した識別 学習データと予測性能pdf 過学習 損失関数と Bias,Variance, Noise K-Ne

  • Gradient Boosting Decision Treeでの特徴選択 in R | 分析のおはなし。

    Gradient Boosting Decision Tree(GBDT)を勉強したので、その概要とRでのパッケージの簡単な使い方を乗っけておきます。 1. そもそもGBDTってなんだよっていう話。 単純に言えば、複数の決定木を作成して、集団で学習させる方法の事です。 1決定木を作り、上手くモデルで説明が出来なかったobservationに対して重みを付け、重みのついた状態で次の木を作り、また重みを付けて・・・ というステップを指定した数分だけ繰り返します。 誤差に対して学習しなおしてくれるので、決定木よりもっと良いモデルが出来上がります。 理論の詳細はこちらのを参考にしていただければと。 英語版は著者サイトで無料公開されています。英語大丈夫な人はこちらを参照するとよいかと。 http://statweb.stanford.edu/~tibs/ElemStatLearn/ あとこのイ

    Gradient Boosting Decision Treeでの特徴選択 in R | 分析のおはなし。
  • LASSO and Ridge regression - データサイエンティスト上がりのDX参謀・起業家

    今回はLASSOとリッジ回帰についてです。 パッケージは「glmnet」、「lars」、「lasso2」で実行できます。 glmnetとlarsの作者はFriedman、Hastie、Efron、Tibshiraniと有名な先生ですが、lasso2の作者は知らないです。。 内容もほぼ一緒なので、LASSOをするときはglmnet一択で良いと思います。 まずは使用例から。。。 データはLARSパッケージにあるdiabetesを使います。 このデータである結果変数y(中性脂肪?)をx(性別や血圧など)によって予測するモデルを作ります。 まずは単純な線形回帰をします。 library(lars) library(glmnet) data(diabetes) Linear <- lm(diabetes$y ~ diabetes$x) Linear$coefficients これが推定結果です。 (

    LASSO and Ridge regression - データサイエンティスト上がりのDX参謀・起業家
  • Ridge and Lasso: Geometric Interpretation — astroML 0.4 documentation

    This documentation is for astroML version 0.4 This page Ridge and Lasso: Geometric Interpretation Links astroML Mailing List GitHub Issue Tracker Videos Scipy 2012 (15 minute talk) Scipy 2013 (20 minute talk) Citing If you use the software, please consider citing astroML. Ridge and Lasso: Geometric Interpretation¶ Figure 8.3 A geometric interpretation of regularization. The right panel shows L1 re

  • 正則化って何ぞや? - データサイエンス,と俺

    今日から2日間くらいで,「正則化」について勉強したまとめを載せようと思います.方針としては,まず簡単に正則化について説明し,その後,正則化回帰分析について簡単な説明と検証を行う形でいこうと思います. *注* 今回の記事の中には間違った記述が含まれている可能性があります.気づいた時点で訂正しますが,正しく理解したい方は最下部にある参考資料などをお読みください. 正則化とは 英語ではRegularizationといいます.正則化について非常にざっくり説明すると,「モデルの過適合を防ぐ」ために必要なものです.「過適合って何?」という人はwikiで「過剰適合」と検索しよう! 過適合の問題は,予測・分類系の手法を用いる際には常に付き纏う問題で,分析においては必ず考慮しなくてはならない問題なのです. 前述したように正則化は「過適合」を防ぐためのものですが,最近はそれだけでなく変数選択(モデル選択)を同

    正則化って何ぞや? - データサイエンス,と俺
  • 相関比を最大にすることによる判別係数の求め方

    相関比を最大にすることによる判別係数の求め方 Last modified: Nov 10, 2005 群の数を $k$,各群のケース数を $n_1, n_2, \dots , n_k$ とする。 $p$ 個の変数を $X_{1}, X_{2}, \dots , X_{p}$ として,任意の重み係数 $a_{1}, a_{2}, \dots , a_{p}$ を用いて作られる合成変量を $Z$ とする。 \[ Z = a_1\ X_1 + a_2\ X_2 + \dots + a_p\ X_p \] 第 $j$ 群,第 $i$ ケースの合成変量を $Z_{ij}\ ( j = 1, 2, \dots , k;\ i = 1, 2, \dots , n_j)$ とする。 \[ Z_{ij} = a_1\ X_{1ij} + a_2\ X_{2ij} + \dots + a_p\ X_{pij}

  • 情報幾何がわからないという話 (Mathematics Advent Calender 2日目) - じょうよわだけど

    2013-12-02 情報幾何がわからないという話 (Mathematics Advent Calender 2日目) 統計 はじめに 2013年を振り返ると、なんといっても印象深かった出来事は「艦隊これくしょん(艦これ)」の爆発的なヒットです! 今や日人の100人に1人は提督であるという計算になり、艦これオンリーイベントが全国で開催されています。また、艦これ公式によるガイドブックが出版されるなど、関連グッズの展開も著しいです。 艦これの今後のますますの躍進に期待ですね!さて、この2013年、もうひとつ印象深かった出来事は情報幾何の爆発的なヒットです! 今や日人の100人に1人は情報幾何をやっている計算になり、情報幾何オンリーイベントも開催されました。また、来年度には情報幾何公式によるガイドブック(※)が出版されるなど、関連グッズの展開も著しいです。 情報幾何の今後のますますの