タグ

2014年1月22日のブックマーク (16件)

  • Rのflexmixパッケージで混合分布モデルによるクラスタ分析を行う。 - Analyze IT.

    Rで混合分布クラスタリングを行うときに有名なパッケージとしてflexmixが存在します。この記事ではflexmixの簡単な使い方を解説します。 flexmix自体は潜在クラス回帰を行うパッケージなのですが、混合分布クラスタリングを行うことも出来ます。 flexmixはRのglmクラスを用いてモデルを表現出来るため、他のパッケージに比べて柔軟なモデリングが可能というメリットがあります。 そもそも、混合分布クラスタリングとはなんぞやという人は以下の文を参考にしてください。 1.モデルベースのクラスタリングとは クラスタリングは代表的なものとして、以下の3つの方法が存在します。 おそらくk-meansと階層的クラスタ分析はみなさんご存知でしょう。 分類 メリット・デメリット 手法 階層的手法 +データを樹形図として表現可能 ‐データ数が多いと、樹形図として表現できないのでデータ数が絞られる。

    Rのflexmixパッケージで混合分布モデルによるクラスタ分析を行う。 - Analyze IT.
  • パターン認識 04 混合正規分布

    1. Rで学ぶデータサイエンス 5パターン認識 第5章 混合分布モデル 2011/07/02 TwitterID:sleipnir002 2. R一人勉強会のご紹介 Rで学ぶデータサイエンス 5パターン認識 (著)金森 敬文, 竹之内 高志, 村田 昇, 金 明哲 共立出版 今ならデモスクリプトがダウンロードできる! http://www.kyoritsu- pub.co.jp/service/service.html#019256 彼女いない暦の5年8ヶ月の不細工でモテな私が 第1章 判別能力の評価 Done 第2章 k-平均法 第3章 階層的クラスタリング あのかわいい女の子を たったの3ヶ月でGET!! 第4章 混合正規分布モデル 第5章 判別分析 第6章 ロジスティック回帰 第7章 密度推定 はっと息を飲むようなあの美人がこの方法で 第8章 k-近傍法 Rでパターン認識ができるよう

    パターン認識 04 混合正規分布
  • Dots and Perl - Perl Hacks

    satojkovic
    satojkovic 2014/01/22
    こんな書き方できるんすか!
  • Git Is Giving Subversion A Run For Its Money: What Took So Long?

    satojkovic
    satojkovic 2014/01/22
    学習コストが高いのも徐々に解消されていく
  • Buying a New Camera? Flickr Can Help You Pick the Right One

    satojkovic
    satojkovic 2014/01/22
    Flickr camera finderなんてあるんだ。面白そう。
  • シンプルなK-Meansの事例で機械学習に触れてみる - ワザノバ | wazanova

    http://www.youtube.com/watch?v=lE7w4kB6ZJk 1 comment | 0 points | by WazanovaNews ■ comment by Jshiike | 約7時間前 IntercomのBen McRedmondが、K-Meansのクラスタリングを使った機械学習のシンプルな事例を紹介しています。 事例として、ブログの最後に「お勧めの他の投稿」を表示するケースを挙げてみる。 作業のステップとしては、 ブログの投稿内容を数学的に表す 。 K-Means法を使って、類似の投稿をクラスタ化する。 1. Representing posts mathematically 全ての投稿タイトルの単語を洗い出す。 各投稿をarrayで表現する。arrayの各要素は全ての単語のリストに対して、「1」もしくは「0」で、あるなしを表示する。 Rubyで書く

  • pythonで非階層クラスタリング - frontier45の日記

    scipy.cluster.vqを使ったK-Meansとscikits.learn.gmmを使ったGMM(gaussian mixture model)によるクラスタリングです。GMMの理論についてはこのPDFが詳しいです。(もとは変分ベイズの記事です。) これらのライブラリをそのまま使っても結果はまだソートされていないのでクラスタの番号を要素の多い順にソートし、各クラスタ内のメンバーも中心までの距離や確率で近い順にソートするラッパーを作成しました。 GMMの場合はAICやBICを使ってクラスタの数の評価もできます*1。 こんな感じのサンプルデータを用意しました。作り方はここを参照。 K-Meansだとこんな感じで GMMだとこんなクラスタリングができます。 ちなみに現在公開中のPyNumPDBにもこれが実装されていてMDのトラジェクトリから生成た複数のPDBファイルを読み込んでこんな感じ

    pythonで非階層クラスタリング - frontier45の日記
  • Intelligence Architecture けんきうノート - GMM-Clustering

    ここにあります。 ただしGMM#p4の共分散行列の更新式は \[ S_i^{t+1} = { \sum_n (x_n-\mu_i^t)(x_n-\mu_i^t)^T E(y_{ni}) \over \sum_n E(y_{ni}) } \] と、\(\mu_i^{t+1}\) の代わりに \(\mu_i^t\) を使いました。 なんとなくループの数とか依存関係とか減らしたかったので。 コードチューンしようってわけではないですが癖ですね。 結果は問題ないようです。 収束判定のための \(\ln p(X|\theta)\) はMステップ直後ではなく、Eステップで計算してます。 \(\phi_k N(x_n|\mu_k, S_k)\) が使いまわせて効率がいいので。 これも無意識にやってた。。。 3クラスからなる2Dのデータ↓を与えてクラスタリングしてみました。 正解の色がついてますが、実際には

  • 運動を習慣化すると、仕事もうまく回るようになる:研究結果 | ライフハッカー・ジャパン

    Inc.:最近の研究によると、定期的な運動はバランス感覚を向上させるのに非常に効果的だということが分かりました。 これからはもっと運動をしようと心に誓った人には、運動を始めたい(始めなければ)と思った理由がいくつかあるはずです。お腹まわりの肉がかなりついてきたからかもしれないし、健康診断でお医者さんに厳しいことを言われたからかもしれません。もしかしたら、ストレス解消法として運動をしたいのかもしれません。運動を始める理由としてはあまり思いつかないかもしれませんが、実は運動によってワークライフバランスも整います。 しかし、ジムに通うのには時間がかかりますし、会社の経営者など忙しいスケジュールを送っている人は、その時間を捻出するのも大変なことがあります。運動をする時間があればもっと他のことがしたいと思うかもしれませんが、定期的な運動のお陰で、時間やスケジュールの調整までも楽になっていくというので

    運動を習慣化すると、仕事もうまく回るようになる:研究結果 | ライフハッカー・ジャパン
  • 見た目そのまま!Macbook Airの容量を64GBも増やすことが出来る魔法のカード「Nifty MiniDrive」。

    「Nifty MiniDrive」はMicroSDカードをMacbook Airに装着するためのミニドライブです。このようにスロットにMicroSDカードを挿入して使います。 あとはMacBook AirのSDカードスロットにこうして差しこむだけ。 普段このスロットはあまり使うこともないのでUSBのようにスロットの数で悩むこともありません。付け外しもしないので失くす心配もなし。これはいいね。 わずかなでっぱりすら無し! 他のSDカードスロットはどうしても出っ張ってしまうものが多いのですが、この「Nifty MiniDrive」は差し込んだスロットに全く出っ張りが無いように作られているので、外観も全く気になりません。 これなら当に常時付けながらの運用が可能ですね。 ポップなカラーリング 色もシルバーだけでなく数種類用意。 ちょっと個性を出したいという人の気持ちもよく考えてくれています。 M

    見た目そのまま!Macbook Airの容量を64GBも増やすことが出来る魔法のカード「Nifty MiniDrive」。
  • 新型BoVW - n_hidekeyの日記

    いよいよ、従来のBoVWに変わる新しい特徴表現方法を見ていきます。これらの新しい特徴は直接線形手法に適用できるように設計されており、線形SVMと合わせて用いられることが多いです。 前置き 一枚の画像からBoVW(或いは、それに類する枠組み)によって特徴ベクトルを得るまでは、非常に大雑把に分けると次の二つの過程に分かれます。 画像から多数(数千〜数万)の局所特徴を抽出 得られた大量の局所特徴の情報を利用し、最終的なアウトプットである一の特徴ベクトルを生成 どちらも大事なプロセスですが、今回考えるのは2のほうです。つまり、局所特徴はなんらかの方法でとってあるとして、その後どうするかという部分です。1の方は今回は触れませんが、SIFT + dense sampling などが多いようです(参考: Bag of Visual Words - n_hidekeyの日記)。 プロセス2で重要なのは、

    新型BoVW - n_hidekeyの日記
  • 従来型BoVWの変換 - n_hidekeyの日記

    Explicit feature map これに関してはどちらかというと識別器の工夫で、BoVWという表現そのものは何も変わりないのですがけっこう大事だと思うので。 冒頭で述べたようにBoVWには非線形カーネルの利用が必要でした。もともとカーネルはunknownな高次元空間における内積を観測空間で行うためのツールでしたが、これを用いるとサンプル数に対するスケーラビリティは著しく落ちます(O(n^2)〜O(n^3))。だったら、その高次元空間への写像(feature map)を明示的に書き下してしまって直接線形識別器(O(n))を使えばいいじゃないかというのがモチベーションです。もちろん、一般的にはそのような高次元空間が書けるとは限りませんが、BoVWのようなヒストグラム特徴でよく用いられるカーネルについては比較的簡単に設計できることが分かっています。 おそらく、最初に有名になったのは次の論

    従来型BoVWの変換 - n_hidekeyの日記
  • Perfume対バンツアーにスカパラ、9nine、9mm、ライムス

    Perfume対バンツアーにスカパラ、9nine、9mm、ライムス 2014年1月21日 15:00 3840 478 音楽ナタリー編集部 × 3840 この記事に関するナタリー公式アカウントの投稿が、SNS上でシェア / いいねされた数の合計です。 1875 706 575 シェア 昨年5月から6月にかけて行われた初の対バンツアーで、自らがオファーしたゲストアーティストたちと東名阪でライブを繰り広げたPerfume。今回はさらに規模を拡大し、東京、広島、静岡、石川、香川、鹿児島、韓国の7カ所で計9公演が開催される。なお、国内のライブはすべてホール会場での実施となる。 対バン相手となるのは東京スカパラダイスオーケストラ、RIP SLYME、9nine、9mm Parabellum Bullet、RHYMESTER、秦基博、高橋優、マキシマム ザ ホルモンという豪華な顔ぶれ。Perfume

    Perfume対バンツアーにスカパラ、9nine、9mm、ライムス
  • Google Sites: Sign-in

  • Mahout で fuzzy k-means やってみた - ALBERT Engineering Blog

    はじめに エントリはデータが曖昧に分類されるのをグラフ描画して見てみたいという動機で、 適当なサンプルデータに対してファジークラスタリング手法の1つである fuzzy k-means 法を実施してみたという内容です。 fuzzy k-means は Hadoop 上で動く機械学習ライブラリ Apache Mahout により実行したので、そちらのコマンド等も記載します。 k-means もいいんだけど… fuzzy k-means は知らないけど k-means なら知っている、という方もいらっしゃると思います。 k-means 法は最もオーソドックスなクラスタリング手法でアルゴリズムも理解しやすく、様々な BI ツールで実装されています。 また、実データで上手くクラスタリングできることが多く、いろいろなところで使われているのではないでしょうか。 しかし、k-means にもいくつか問題

    Mahout で fuzzy k-means やってみた - ALBERT Engineering Blog
  • 2つの GMM(Gaussian Mixture Model) の類似度を KL Divergence で測る - 糞糞糞ネット弁慶

    結論から言うと,結構面倒なのでサンプリングで近似すれば良い.死ぬほど精度が必要とかで無い限り, 後述する Variational Approximation を使えば良さそう. 目的 GMMは正規分布の重み付き和で表現される確率分布.二つのGMMの類似度を測る必要が生じたので調べていたら案外と面倒だったのでメモしておく. KL Divergence 確率分布の類似度と言えばKLダイバージェンス.最近では正規分布間のKLダイバージェンスの導出 - 唯物是真 @Scaled_Wurmや多変量(多次元)正規分布のKLダイバージェンスの求め方 - EchizenBlog-Zweiでも触れられている. 誰か実装できる形にまで書き下しているかと思ったら閉じた形では書けないとのこと.そしてこれをどうにか近似するというのは最近でも取り組まれている研究テーマであるらしい. Approximating the

    2つの GMM(Gaussian Mixture Model) の類似度を KL Divergence で測る - 糞糞糞ネット弁慶