satojkovicのブックマーク / 2014年1月22日

Rのflexmixパッケージで混合分布モデルによるクラスタ分析を行う。 - Analyze IT.

Rで混合分布クラスタリングを行うときに有名なパッケージとしてflexmixが存在します。この記事ではflexmixの簡単な使い方を解説します。 flexmix自体は潜在クラス回帰を行うパッケージなのですが、混合分布クラスタリングを行うことも出来ます。 flexmixはRのglmクラスを用いてモデルを表現出来るため、他のパッケージに比べて柔軟なモデリングが可能というメリットがあります。そもそも、混合分布クラスタリングとはなんぞやという人は以下の本文を参考にしてください。１．モデルベースのクラスタリングとはクラスタリングは代表的なものとして、以下の３つの方法が存在します。おそらくk-meansと階層的クラスタ分析はみなさんご存知でしょう。分類メリット・デメリット手法階層的手法＋データを樹形図として表現可能 ‐データ数が多いと、樹形図として表現できないのでデータ数が絞られる。

satojkovic 2014/01/22

リンク

パターン認識 04 混合正規分布

1. Rで学ぶデータサイエンス 5パターン認識第5章混合分布モデル 2011/07/02 TwitterID:sleipnir002 2. R一人勉強会のご紹介 Rで学ぶデータサイエンス 5パターン認識 (著)金森敬文, 竹之内高志, 村田昇, 金明哲共立出版今ならデモスクリプトがダウンロードできる! http://www.kyoritsu- pub.co.jp/service/service.html#019256 彼女いない暦の５年８ヶ月の不細工でモテな私が第1章判別能力の評価 Done 第2章 k-平均法第3章階層的クラスタリングあのかわいい女の子をたったの３ヶ月でGET！！第4章混合正規分布モデル第5章判別分析第6章ロジスティック回帰第7章密度推定はっと息を飲むようなあの美人がこの方法で第8章 k-近傍法 Rでパターン認識ができるよう

satojkovic 2014/01/22

リンク

Dots and Perl - Perl Hacks

satojkovic 2014/01/22

こんな書き方できるんすか！

リンク

Git Is Giving Subversion A Run For Its Money: What Took So Long?

satojkovic 2014/01/22

学習コストが高いのも徐々に解消されていく

リンク

Buying a New Camera? Flickr Can Help You Pick the Right One

satojkovic 2014/01/22

Flickr camera finderなんてあるんだ。面白そう。

リンク

シンプルなK-Meansの事例で機械学習に触れてみる - ワザノバ | wazanova

http://www.youtube.com/watch?v=lE7w4kB6ZJk 1 comment | 0 points | by WazanovaNews ■ comment by Jshiike | 約7時間前 IntercomのBen McRedmondが、K-Meansのクラスタリングを使った機械学習のシンプルな事例を紹介しています。事例として、ブログの最後に「お勧めの他の投稿」を表示するケースを挙げてみる。作業のステップとしては、ブログの投稿内容を数学的に表す。 K-Means法を使って、類似の投稿をクラスタ化する。 1. Representing posts mathematically 全ての投稿タイトルの単語を洗い出す。各投稿をarrayで表現する。arrayの各要素は全ての単語のリストに対して、「1」もしくは「0」で、あるなしを表示する。 Rubyで書く

satojkovic 2014/01/22

リンク

pythonで非階層クラスタリング - frontier45の日記

scipy.cluster.vqを使ったK-Meansとscikits.learn.gmmを使ったGMM(gaussian mixture model)によるクラスタリングです。GMMの理論についてはこのPDFが詳しいです。(もとは変分ベイズの記事です。) これらのライブラリをそのまま使っても結果はまだソートされていないのでクラスタの番号を要素の多い順にソートし、各クラスタ内のメンバーも中心までの距離や確率で近い順にソートするラッパーを作成しました。 GMMの場合はAICやBICを使ってクラスタの数の評価もできます*1。こんな感じのサンプルデータを用意しました。作り方はここを参照。 K-Meansだとこんな感じで GMMだとこんなクラスタリングができます。ちなみに現在公開中のPyNumPDBにもこれが実装されていてMDのトラジェクトリから生成た複数のPDBファイルを読み込んでこんな感じ

satojkovic 2014/01/22

リンク

Intelligence Architecture けんきうノート - GMM-Clustering

ここにあります。ただしGMM#p4の共分散行列の更新式は \[ S_i^{t+1} = { \sum_n (x_n-\mu_i^t)(x_n-\mu_i^t)^T E(y_{ni}) \over \sum_n E(y_{ni}) } \] と、\(\mu_i^{t+1}\) の代わりに \(\mu_i^t\) を使いました。なんとなくループの数とか依存関係とか減らしたかったので。コードチューンしようってわけではないですが癖ですね。結果は問題ないようです。収束判定のための \(\ln p(X|\theta)\) はMステップ直後ではなく、Eステップで計算してます。 \(\phi_k N(x_n|\mu_k, S_k)\) が使いまわせて効率がいいので。これも無意識にやってた。。。 3クラスからなる2Dのデータ↓を与えてクラスタリングしてみました。正解の色がついてますが、実際には

satojkovic 2014/01/22

リンク

運動を習慣化すると、仕事もうまく回るようになる：研究結果 | ライフハッカー・ジャパン

Inc.：最近の研究によると、定期的な運動はバランス感覚を向上させるのに非常に効果的だということが分かりました。これからはもっと運動をしようと心に誓った人には、運動を始めたい（始めなければ）と思った理由がいくつかあるはずです。お腹まわりの肉がかなりついてきたからかもしれないし、健康診断でお医者さんに厳しいことを言われたからかもしれません。もしかしたら、ストレス解消法として運動をしたいのかもしれません。運動を始める理由としてはあまり思いつかないかもしれませんが、実は運動によってワークライフバランスも整います。しかし、ジムに通うのには時間がかかりますし、会社の経営者など忙しいスケジュールを送っている人は、その時間を捻出するのも大変なことがあります。運動をする時間があればもっと他のことがしたいと思うかもしれませんが、定期的な運動のお陰で、時間やスケジュールの調整までも楽になっていくというので

satojkovic 2014/01/22

リンク

見た目そのまま！Macbook Airの容量を64GBも増やすことが出来る魔法のカード「Nifty MiniDrive」。

「Nifty MiniDrive」はMicroSDカードをMacbook Airに装着するためのミニドライブです。このようにスロットにMicroSDカードを挿入して使います。あとはMacBook AirのSDカードスロットにこうして差しこむだけ。普段このスロットはあまり使うこともないのでUSBのようにスロットの数で悩むこともありません。付け外しもしないので失くす心配もなし。これはいいね。わずかなでっぱりすら無し！他のSDカードスロットはどうしても出っ張ってしまうものが多いのですが、この「Nifty MiniDrive」は差し込んだスロットに全く出っ張りが無いように作られているので、外観も全く気になりません。これなら本当に常時付けながらの運用が可能ですね。ポップなカラーリング色もシルバーだけでなく数種類用意。ちょっと個性を出したいという人の気持ちもよく考えてくれています。 M

satojkovic 2014/01/22

リンク

新型BoVW - n_hidekeyの日記

いよいよ、従来のBoVWに変わる新しい特徴表現方法を見ていきます。これらの新しい特徴は直接線形手法に適用できるように設計されており、線形SVMと合わせて用いられることが多いです。前置き一枚の画像からBoVW（或いは、それに類する枠組み）によって特徴ベクトルを得るまでは、非常に大雑把に分けると次の二つの過程に分かれます。画像から多数（数千〜数万）の局所特徴を抽出得られた大量の局所特徴の情報を利用し、最終的なアウトプットである一本の特徴ベクトルを生成どちらも大事なプロセスですが、今回考えるのは2のほうです。つまり、局所特徴はなんらかの方法でとってあるとして、その後どうするかという部分です。1の方は今回は触れませんが、SIFT + dense sampling などが多いようです（参考: Bag of Visual Words - n_hidekeyの日記）。プロセス2で重要なのは、

satojkovic 2014/01/22

リンク

従来型BoVWの変換 - n_hidekeyの日記

Explicit feature map これに関してはどちらかというと識別器の工夫で、BoVWという表現そのものは何も変わりないのですがけっこう大事だと思うので。冒頭で述べたようにBoVWには非線形カーネルの利用が必要でした。もともとカーネルはunknownな高次元空間における内積を観測空間で行うためのツールでしたが、これを用いるとサンプル数に対するスケーラビリティは著しく落ちます（O(n^2)〜O(n^3)）。だったら、その高次元空間への写像（feature map）を明示的に書き下してしまって直接線形識別器（O(n)）を使えばいいじゃないかというのがモチベーションです。もちろん、一般的にはそのような高次元空間が書けるとは限りませんが、BoVWのようなヒストグラム特徴でよく用いられるカーネルについては比較的簡単に設計できることが分かっています。おそらく、最初に有名になったのは次の論

satojkovic 2014/01/22

リンク

Perfume対バンツアーにスカパラ、9nine、9mm、ライムス

Perfume対バンツアーにスカパラ、9nine、9mm、ライムス 2014年1月21日 15:00 3840 478 音楽ナタリー編集部 × 3840 この記事に関するナタリー公式アカウントの投稿が、SNS上でシェア / いいねされた数の合計です。 1875 706 575 シェア昨年5月から6月にかけて行われた初の対バンツアーで、自らがオファーしたゲストアーティストたちと東名阪でライブを繰り広げたPerfume。今回はさらに規模を拡大し、東京、広島、静岡、石川、香川、鹿児島、韓国の7カ所で計9公演が開催される。なお、国内のライブはすべてホール会場での実施となる。対バン相手となるのは東京スカパラダイスオーケストラ、RIP SLYME、9nine、9mm Parabellum Bullet、RHYMESTER、秦基博、高橋優、マキシマムザホルモンという豪華な顔ぶれ。Perfumeの

satojkovic 2014/01/22

リンク

Google Sites: Sign-in

satojkovic 2014/01/22

リンク

Mahout で fuzzy k-means やってみた - ALBERT Engineering Blog

はじめに本エントリはデータが曖昧に分類されるのをグラフ描画して見てみたいという動機で、適当なサンプルデータに対してファジークラスタリング手法の1つである fuzzy k-means 法を実施してみたという内容です。 fuzzy k-means は Hadoop 上で動く機械学習ライブラリ Apache Mahout により実行したので、そちらのコマンド等も記載します。 k-means もいいんだけど… fuzzy k-means は知らないけど k-means なら知っている、という方もいらっしゃると思います。 k-means 法は最もオーソドックスなクラスタリング手法でアルゴリズムも理解しやすく、様々な BI ツールで実装されています。また、実データで上手くクラスタリングできることが多く、いろいろなところで使われているのではないでしょうか。しかし、k-means にもいくつか問題

satojkovic 2014/01/22

リンク

2つの GMM(Gaussian Mixture Model) の類似度を KL Divergence で測る - 糞糞糞ネット弁慶

結論から言うと，結構面倒なのでサンプリングで近似すれば良い．死ぬほど精度が必要とかで無い限り，後述する Variational Approximation を使えば良さそう．目的 GMMは正規分布の重み付き和で表現される確率分布．二つのGMMの類似度を測る必要が生じたので調べていたら案外と面倒だったのでメモしておく． KL Divergence 確率分布の類似度と言えばKLダイバージェンス．最近では正規分布間のKLダイバージェンスの導出 - 唯物是真 @Scaled_Wurmや多変量(多次元)正規分布のKLダイバージェンスの求め方 - EchizenBlog-Zweiでも触れられている．誰か実装できる形にまで書き下しているかと思ったら閉じた形では書けないとのこと．そしてこれをどうにか近似するというのは最近でも取り組まれている研究テーマであるらしい． Approximating the

satojkovic 2014/01/22

リンク

はてなブックマーク

タグ

2014年1月22日のブックマーク (16件)

Rのflexmixパッケージで混合分布モデルによるクラスタ分析を行う。 - Analyze IT.

パターン認識 04 混合正規分布

Dots and Perl - Perl Hacks

Git Is Giving Subversion A Run For Its Money: What Took So Long?

Buying a New Camera? Flickr Can Help You Pick the Right One

シンプルなK-Meansの事例で機械学習に触れてみる - ワザノバ | wazanova

pythonで非階層クラスタリング - frontier45の日記

Intelligence Architecture けんきうノート - GMM-Clustering

運動を習慣化すると、仕事もうまく回るようになる：研究結果 | ライフハッカー・ジャパン

見た目そのまま！Macbook Airの容量を64GBも増やすことが出来る魔法のカード「Nifty MiniDrive」。

新型BoVW - n_hidekeyの日記

従来型BoVWの変換 - n_hidekeyの日記

Perfume対バンツアーにスカパラ、9nine、9mm、ライムス

Google Sites: Sign-in

Mahout で fuzzy k-means やってみた - ALBERT Engineering Blog

2つの GMM(Gaussian Mixture Model) の類似度を KL Divergence で測る - 糞糞糞ネット弁慶

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス