タグ

ブックマーク / qiita.com/kenmatsu4 (5)

  • EMアルゴリズム徹底解説 - Qiita

    ブログは、混合ガウス分布を題材に、EMアルゴリズムという機械学習界隈では有名なアルゴリズムを丁寧に解説することを目的として書いています。 また、この記事は、「数学とコンピュータ Advent Calendar 2017」の24日目の記事です。 そして長いです。 1. はじめに 観測した確率変数 $X$ をよく表現する、モデル $p(x|\theta)$ のパラメータを求めることが確率分布の推定ではよく行われます。つまり最尤法ですね。より複雑な分布になるとその分布の構造に潜在変数(Latent Variable) $Z$ があると仮定してモデル化を行うと、シンプルな組み合わせで $X$ の分布を表現できることがあります。今回扱う混合ガウス分布もその一つです。 のちに説明しますが、データセットの種別を完全データ集合と不完全データ集合に分けた場合、不完全データ集合に属するようなデータセットはデ

    EMアルゴリズム徹底解説 - Qiita
  • 私がKagglerになるまでの道のり - Qiita

    機械学習をどう学んだか by 日経 xTECH ビジネスAI② Advent Calendar 2019 1日目の記事です。今日は @kenmatsu4 が機械学習をどうやって学んできたか、有用だったの紹介をまじえて解説してみたいと思います。初のポエム記事ですw こちらは日経 xTECHさん企画のAdvent Calendarですが、ちなみに実はワタクシ @kenmatsu4 はAI道場「Kaggle」の正体 AI道場「Kaggle」の衝撃、DeNAが人材採用の特別枠を設けた訳 の中の人だったりもします 1. 学生時代 大学では経済学部に所属していまして、統計学の先生の下で勉強しました。もう15年以上前ですw 当時データサイエンスという言葉は当然なかったですが、今、データサイエンティストとして働いているのはやはりこの時期にデータ分析に携われたおかげです。文系だったので、数学は独学で勉強し

    私がKagglerになるまでの道のり - Qiita
    xiangze
    xiangze 2019/12/07
  • 今までの投稿記事のまとめ(統計学/機械学習/数学 etc) - Qiita

    久々の投稿です、@kenmatsu4 です 久々なのですが、新規投稿ではなく今までの記事まとめです 昨年末くらいにまとめを書くといっていながら半年が経過してしまいましたが、ようやっと公開します。 統計学、機械学習、プログラミング、数学、その他にカテゴリ分けしてみました。

    今までの投稿記事のまとめ(統計学/機械学習/数学 etc) - Qiita
  • 【PyStan】Graphical LassoをStanでやってみる。 - Qiita

    こんにちは、久しぶりにブログを書く@kenmatsu4です。 Stan Advent Calendarの23日目の記事を書きました。 今回のブログでは、Graphical Lassoという、L1正則化をかけた精度行列(分散共分散行列の逆行列)を推定する手法をStanを用いてやってみようというものです。コードの全文はGitHubにアップロードしています。 1. テスト用データの生成 まず、多変量正規分布に従う乱数を生成します。 今回は下記のような平均、分散をもつ6次元のデータを300個生成します。 そして無理やり$x_6$と$x_4$、さらに$x_6$と$x_5$に相関を持たせ、$x_4$と$x_5$が間接相関を持つようにします。これはもともと$x_4$と$x_5$がなかったものの、$x_6$の影響を受けて$x_6$の変動と連動して$x_4$と$x_5$の値も動くので来相関がない変数同士が

    【PyStan】Graphical LassoをStanでやってみる。 - Qiita
  • ROC曲線とは何か、アニメーションで理解する。 - Qiita

    統計学、パターン認識等で、ROC(Receiver Operating Characteristic;受信者動作特性)曲線という概念が出てきます。また、データ分析・予測のコンペティションサイトKaggleでも、提出されたアルゴリズムの識別性能評価にこのROC曲線に基づくAUC(Area Under the Curve)というものを使っています。(例えばココ) このROC曲線、ちょっとわかりにくいので、まとめてみました。また、アニメーションでグラフを動かしてイメージを付けるということもやってみます。 1. ROC曲線に至る前説 まず、例として健康に関するとある検査数値データがあったとします。 この検査数値は健康な人は平均25, 標準偏差2の正規分布に従い分布しています。(下記図の緑の曲線) 病気の人は平均30、標準偏差4の正規分布に従い分布しています。(下記の図の青の曲線) グラフにすると下

    ROC曲線とは何か、アニメーションで理解する。 - Qiita
    xiangze
    xiangze 2015/05/11
  • 1