タグ

クラスタリングに関するlabgaのブックマーク (2)

  • Online Chinese Restaurant Process (Liu et al., KDD 2014) メモランダム - 銀座で働くデータサイエンティストのブログ

    先週のうちのチームの論文輪読会でこの論文を読んだので、その時用いた資料を一部改訂して上げておきます。いつも通り炎上ラーニング大歓迎*1なので、おかしなところがあったらどんどん突っ込んで下さると有難いです。 Online chinese restaurant process - ACM Digital Library 何とビデオレクチャーということで、去年のNYCでのKDDの番トークそのものがまんま収録されて公開されてるんですね~。ということで論文読みながら*2このトークを改めて聴くのも良いかも。 0 全体要約 読んで字の如し、混合ディリクレ過程(Dirichlet Process Mixture)をオンライン化しようという論文。大規模データであればあるほどクラスタリングする際にクラスタ数が事前に分かっているケースは少ないのでDPMが大事になってくるが、当然のように大規模になるほどバッチで

    Online Chinese Restaurant Process (Liu et al., KDD 2014) メモランダム - 銀座で働くデータサイエンティストのブログ
  • 類似度と距離 - CatTail Wiki*

    2つのデータが似ている度合いを,類似度の大きさや距離の近さといった数値にしてあらわすことで,クラスタ分析や,k-近傍法,多次元尺度構成法(MDS)をはじめとするいろいろな分析を行うことが可能となる. ここでは,よく知られている類似度や距離について述べる. 類似度という概念は,2つの集合の要素がまさにどれだけ似ているかを数量化したものであり,距離とは,要素同士の離れ具合,従って非類似度とちかい概念と考えてもよい. 参考までに数学における距離の概念の定義を示すと, 距離空間の定義 Sを1つの空でない集合とし,dをSで定義された2変数の実数値関数 d(SxS) → R が,以下の4条件(距離の公理) D1 : (非負性) 任意のx,y∈Sに対して d(x,y)≧0. D2 : (非退化性) x,y∈Sに対し d(x,y)=0  ⇔ x=y. D3 : (対称性) 任意のx,y∈Sに対して d(x

    類似度と距離 - CatTail Wiki*
  • 1