[B! clustering] yukimori_726のブックマーク

はじめに pythonで混合正規分布を実装しました．教科書として『はじめてのパターン認識』を使いました．本記事の構成はじめに混合正規分布混合正規分布モデル隠れ変数と事後確率対数尤度とQ関数 EMアルゴリズムによるパラメータ推定 pythonでの実装結果おわりに混合正規分布データ分布に確率モデルを当てはめると，各データがどのクラスタに属するかを確率的に決めることができます．多くの確率モデルは単峰性の確率分布しか表現できないため，全体の確率分布を複数の確率モデルの重み付け線形和でモデル化する必要があります．クラスタ数を $K$，$k$ 番目のクラスタの確率モデルを $p_k(\boldsymbol x)$ とし，全体の確率分布を以下のように表します．

yukimori_726 2017/04/24

リンク

数学を深く知らなくてもわかる GMM と AGM によるクラスタリングことはじめ · けんごのお屋敷

クラスタリングとはデータ点の集合を意味のあるグループに分割するものである。クラスタリング手法の 1 つとして Gaussian Mixture Model (GMM) というものがある。あの有名な(ここにあの有名な機械学習の本を入れる)にも載っているので、ソレ系の分野をやってる人は知ってる人も多いかもしれない。そしてその GMM の派生版として Approximate Gaussian Mixtures (AGM) という手法を提案している以下の論文がある。 Approximate Gaussian Mixtures for Large Scale Voacbularies 今回ふとしたきっかけで AGM を見つけて、そして実装してみたので、AGM の解説や GMM との違いをまとめてみよう。 Gaussian Mixture Model GMM は日本語ではガウス混合モデルと呼ばれたりす

yukimori_726 2017/04/24

リンク

クラスタリング手法のクラスタリング - Qiita

はじめにクラスタリングについて調べてみると，割りと無責任に scikit-learn がーとか機械学習がーとか語っているページがとても多かったので，なぜ，クラスタリングを行うのかとその注意点クラスタリングにはどのような分類があるのかそれぞれの手法の長所と短所，なぜその手法を使うのか具体的なライブラリの選択という観点からまとめてみました．プログラマかつ数学弱者なので，深く込み入った数学的な沼については語ることが出来ません．また，具体的なライブラリとして，Python の Scipy や scikit-learn を用います．基本的に引用が多い記事なので，下記の参考ページを一読していただきたいです．また，引用元の著者さんで，引用を外していただきたい場合はご連絡ください．すぐに対応します．クラスタリングを行う理由と注意点クラスタリングとはそもそも機械学習の手法は大きく分け

yukimori_726 2017/04/21

clustering

リンク

DAY9: 非階層的クラスタリングの3つの手法 - RedandWhiteDays

Pythonの有名な機械学習用ライブラリであるscikit-learnには様々なアルゴリズムが実装されており、ユーザーは実際に実装しなくても簡単にアルゴリズムを呼び出せるようになっている。とはいえ、原理すら知らずに使うのは危険であり、また自分の目的に適した手法を選択するためにも原理の理解は避けて通れない。今回はscikit-learnに実装されている中から、K-Means, DBSCAN, Mean-shiftの三つの手法を簡単にまとめておくことにする。なおどのようなアルゴリズムが存在するのか、の一覧はCluster analysis - Wikipedia, the free encyclopediaによくまとまっている。scikit-learnの一覧ページ（2.3. Clustering — scikit-learn 0.17.1 documentation）も参考になるだろう。 1

yukimori_726 2017/04/04

リンク

株式会社ALBERT（レコメンドエンジン）

データ分析から導き出されたインサイト無しにAI（人工知能）の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。将来を見据えたオペレーション体制を備えている企業の半数以上（52％）は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ

yukimori_726 2017/04/04

clustering

リンク

パターン認識 04 混合正規分布

1. Rで学ぶデータサイエンス 5パターン認識第5章混合分布モデル 2011/07/02 TwitterID:sleipnir002 2. R一人勉強会のご紹介 Rで学ぶデータサイエンス 5パターン認識 (著)金森敬文, 竹之内高志, 村田昇, 金明哲共立出版今ならデモスクリプトがダウンロードできる! http://www.kyoritsu- pub.co.jp/service/service.html#019256 彼女いない暦の５年８ヶ月の不細工でモテな私が第1章判別能力の評価 Done 第2章 k-平均法第3章階層的クラスタリングあのかわいい女の子をたったの３ヶ月でGET！！第4章混合正規分布モデル第5章判別分析第6章ロジスティック回帰第7章密度推定はっと息を飲むようなあの美人がこの方法で第8章 k-近傍法 Rでパターン認識ができるよう

yukimori_726 2017/03/15

リンク

Microsoft PowerPoint - 07EM.ppt

1 情報意味論（7） EM 櫻井彰人慶應義塾大学理工学部より複雑なモデル � 確率モデルであって、一個の著名(?)な分布で表せないもの、… で表せそうもないもの、…ではなさそうなものが、世の中にはたくさんある。 � 様々な分布を考える � 指数・ポアソン・t・対数正規・… � 分布を組み合わせる � 線形和 – 非観測変数の出現 � しかし、工夫がある → EMアルゴリズム � 分布を考えない – しょせん、多項分布 � 変数が多いと大変。 � しかし、工夫がある → Bayesian network 例: 混合正規分布 � 正規分布（ガウス混合）の線形和線形和（重みの和は１） p(x) = ∑ πj pj(x) 考え方: 各データは、まず、 j のどれかをランダムに選び（確率分布は {πj} ）、次に pj に従い生成される -10 -5 0 5 10 0.0 0.05 0

yukimori_726 2017/03/15

リンク

どんぐりの背比べ（混合ガウスモデルによるクラスタリング） - Λlisue's blog

図のようにヒストグラムおよび混合ガウスモデルを描画するコードをペタリしておきます。暇があったら解説を書きます。

yukimori_726 2017/03/15

リンク

クラスタリングの基本 - HELLO CYBERNETICS

はじめにクラスタリングと教師なし学習教師なし学習クラスタリングクラスタリングの手法凝集型クラスタリング重心法単連結法完全連結法まとめ k-means 発展的話題はじめにクラスタリングとは機械学習手法の1つであり、通常は「教師なし学習」によって実現されます。今回はクラスタリングの使いドコロや、通常の判別などと何が違うのかを理解し、基本的な手法を確認することを目的とします。クラスタリングと教師なし学習教師なし学習の全てがクラスタリングというわけではありません。あくまで、教師なし学習の中にクラスタリングというものがあるというイメージです。教師なし学習とクラスタリングがいったいそれぞれ何なのかを説明していきます。教師なし学習データがあったとしましょう。機械学習をするという場合には、何らかの評価関数を使って関数を決定します。仮に「教師あり学習」の場合は、データに対して

yukimori_726 2017/01/29

clustering

リンク

Rand index によるクラスタリング間の類似度の算出 - y_uti のブログ

データのクラスタリング間の類似度を測る尺度として、ランド指数 (Rand Index) というものがあるようです。プログラムを書きながら試してみたので、実例とともに計算方法をまとめてみたいと思います*1。なお Wikipedia の英語ページは以下にあります。日本語ページは未作成のようです。 Rand index - Wikipedia, the free encyclopedia クラスタリングの対象になるような手ごろなデータがないかと探してみたところ、国土地理院のウェブページで都道府県庁所在地の緯度経度座標が公開されているのを見つけました。今回はこのデータを使ってみることにします。都道府県庁の経度緯度まずは HTML ファイルを取得して、この後の処理で使いやすいように csv 形式に変換しておきます。元データは緯度経度が「度分秒」の形式になっていますが、これも十進法に変換しておきま

yukimori_726 2017/01/18

リンク

Evaluation of clustering

Typical objective functions in clustering formalize the goal of attaining high intra-cluster similarity (documents within a cluster are similar) and low inter-cluster similarity (documents from different clusters are dissimilar). This is an internal criterion for the quality of a clustering. But good scores on an internal criterion do not necessarily translate into good effectiveness in an applica

yukimori_726 2017/01/16

リンク

クラスタ数を自動推定するX-means法を調べてみた - Qiita

背景前回、k-meansの最適なk数ってどうやって探すの？って記事を書きました ↓ コメント欄というわけで、『X-means』を調べましたクラスタ数を自動推定するX-means法について Pelleg and Moore (2000)が提案したK-meansの拡張アルゴリズム。クラスター数Kを自動決定する k-meansをデータ数が多くても高速に動くようなアルゴリズムに工夫するという点が、従来のk-meansとの差分。 "x-means"でググると最初に出てくる2本のpopularっぽい論文 X-means: Extending K-means with Efficient Estimation of the Number of Clusters | Carnegie Mellon Univ. (2000) x-meansの提案論文クラスター数を自動決定するk-meansアルゴ

yukimori_726 2017/01/06

リンク

ニューラルガスを可視化してみた（1） - Qiita

はじめまして。カラフルボードでAIの研究開発をやっているn-suzukiです。普段は開発半分、研究・調査半分という感じで稼働しているため、ニューラルネットや機械学習のアルゴリズムに関する学術論文を読む機会が多く、自分の理解のために論文の内容を実装してみて動かしてみることがあります。今回はその一環で実装した「ニューラルガス」というアルゴリズムについて紹介します。ニューラルガス1は、ベクトル量子化2手法の一つで、クラスタリング、特徴抽出等に用いられます。同じベクトル量子化手法であり、より広く知られているK-means法と比較して、量子化精度が良いことが報告されています3。ニューラルガスでは、$N$個の素子（ニューロンと呼ぶ）が代表ベクトルにあたる重みベクトル$w_n$を持ち、この値を適応的に更新することで適切な代表ベクトルを獲得します。この重みベクトル$w_n$を更新する際のダイナミ

yukimori_726 2016/12/22

リンク

Machine Learning with Scikit Learn (Part I) - 人工知能に関する断創録

今年の7月に開催されたSciPy2015の講演動画がEnthoughtのチャンネルで公開されている。今年も面白い講演が多いのでいろいろチェックしている。今年の目標（2015/1/11）にPythonの機械学習ライブラリであるscikit-learnを使いこなすというのが入っているので、まずはscikit-learnのチュートリアルを一通り見ることにした。 Part IとPart IIを合わせると6時間以上あり非常に充実している。IPython Notebook形式の資料やデータは下記のGitHubアカウントで提供されている。ノートブックをダウンロードし、実際に手を動かしながらチュートリアルを進めると理解がより進むかもしれない。あとで振り返りやすいように内容を簡単にまとめておきたい。 1.1 Introduction to Machine Learning 機械学習システムの流れ。教師あ

yukimori_726 2016/12/17

リンク

Unity memo

クラスタリングと分類クラスタリングとは、似ているサンプルをまとめてグルーピングをすることです。グルーピングするグループは前もって与えられていません。それに対して、分類では、グループは前もって与えられていて、サンプルを与えられたグループへ分類します。ここでは、2次元平面にランダムに生成されたサンプルを、距離が近いものをまとめてグルーピングする方法を考えます。混合正規分布によるクラスタリングは、グループは前もって与えられていないが、いくつのグループに分けるがグループの数は決まっている分類方法です。左上にメニューが表示される。 [create data]ボタンを押すとランダムにサンプルが作成される。 [create center]ボタンを押すとランダムにグループの中心が作成される。 [start]ボタンを押すとclusteringが始まる。混合正規分布によるクラスタリングこの分類

yukimori_726 2016/12/15

リンク

混合ガウスモデル(Gaussian Mixture Model, GMM)の実用的かつ実践的な方法 : 大学教授のブログ (データ分析相談所)

yukimori_726 2016/12/15

リンク

混合ガウス分布モデルのクラスタをk平均法とEMアルゴリズムと変分ベイズでそれぞれ推定 - 西尾泰和のはてなダイアリー

「クラスタは球状だ」と想定しているk平均法が苦労するように、細長くて交差したクラスタのデータを使った。また変分ベイズの「クラスタの個数を自動調整する」というメリットを確認するために、クラスタの個数は2, 4, 8個で行った。EMアルゴリズムと変分ベイズでは、k平均法ができていない「長細いクラスタだ」という推定ができている。またEMアルゴリズムではクラスタの個数は人間が与えないといけないが変分ベイズでは自動調整されている。ただし、自動調整に失敗することも結構あるので「何回か実行して一番良かったものを取る」というアプローチが必要だろうな。変分ベイズの8クラスタでの実験は10回やって一番良かったものを取っている。4クラスタの実験は6回。それぞれ初期状態から20ステップの学習過程を動画にしている。 k平均法 k平均法では細長いクラスタを見つけられないのでこれが限界 4クラスタの例。クラスタの個数を

yukimori_726 2016/12/15

clustering

リンク

決定木とランダムフォレスト - Qiita

決定木とは目的変数に属する確率を複数の説明変数の組み合わせで算出する方法。イメージは以下で、Yes/Noなどの条件に属するかどうかで確率を算出する。ランダムフォレストとはランダムフォレストは、アンサンブル学習法(複数の分類器を集めて構成される分類器)の一つ。決定木を複数集めて使うので、木が集まってフォレスト（森）として使う。やってみる(sklearnでの決定木) データ用意ランダムに作ったデータを用意する。 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn %matplotlib inline from sklearn.datasets import make_bl obs # ダミーデータの生成用 X, y = make_bl obs(n_samples=5

yukimori_726 2016/12/10

リンク

C++でOpenCVを使ってK-meansクラスタリング - Qiita

C++でOpenCVを使ってK-Meansクラスタリングを行うサンプル。 OpenCVのインストール CentOSの場合 #include <iostream> #include <opencv2/core/core.hpp> #include <opencv2/flann/flann.hpp> int main() { cv::Mat samples = cv::Mat::zeros(5, 5, CV_32FC1); samples.at<float>(0, 0) = 100.0; samples.at<float>(1, 0) = 100.0; samples.at<float>(2, 0) = 80.0; samples.at<float>(3, 0) = 70.0; samples.at<float>(4, 0) = 50.0; std::cout << "samples=\n"

yukimori_726 2016/12/08

リンク

はてなブックマーク

タグ

関連タグで絞り込む (71)

clusteringに関するyukimori_726のブックマーク (170)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス