タグ

clusteringに関するjp-mykのブックマーク (6)

  • Não Aqui! » One-Class Clustering in the Text Domain

    Ron Bekkerman; Koby Crammer. One-Class Clustering in the Text Domain. あるトピックに関連する文書と関連しない文書が混ざっている文書集合が与えられたとき,トピックに関連する文書集合(核)と関連しない文書(ノイズ)に分類する教師無し手法を提案し,その手法の理論的な裏づけを行う.まず,単語wのトピックへの関与度を表す指標として,ρ(w) = p(w) / q(w)を用いる.ここで,p(w)は与えられた文書集合中におけるwの出現確率,q(w)は膨大な文書集合(例えばGoogle Web1Tコーパスなど)中におけるwの出現確率である.ある文書dのトピック度をp(w)とq(w)のKL-divergenceで計ると, KL_d(p||q) = \sum_{w \in G} p(d, w) log{p(w)/q(w)} =  \sum_

    jp-myk
    jp-myk 2010/11/12
    one class co-clustering
  • COP-KMEANS(Constrained K-means)を試してみた - のんびり読書日記

    制約付きクラスタリング・半教師ありクラスタリングは、クラスタリングをする際に制約を与えることで精度を向上させる手法です。制約は2つのデータ間の関係を定義した、以下がよく使われるようです。 must-link 同じクラスタに所属しなければならない cannot-link 同じクラスタに所属してはならない 今回はとりあえず制約付きクラスタリングの論文で多く引用されていて、以下の論文を参考に実装してみました。手法がK-meansを少し改良しただけで一番簡単そうだったのと、最新の動向まで調べきれなかったので、まずはとっかかりとして。 "Constrained K-means Clustering with Background Knowledge", by Kiri Wagstaff, Claire Cardie, Seth Rogers, and Stefan Schroedl. ICML 20

    COP-KMEANS(Constrained K-means)を試してみた - のんびり読書日記
  • Streaming k-means approximation - tsubosakaの日記

    実家に帰省中,電車の中で読んでた論文の紹介。 概要 k-meansはクラスタリングテクニックとして非常に基的な手法である。 しかし、k-meansでは全データに対してラベリングを複数回繰り返す必要があり、全データ点を保存する必要がある、そこでk-meansの出力であるk個のクラスタ中心をワンパスで見つける方法を提案する。 ここで得られるクラスタ中心は最適値と比較したときにO(log k)の近似となっている ストリームアルゴリズムについて 論文で言っているStreamingの意味としては入力を前から見ていって、すべて保存しないアルゴリズムのことを言っている。いわゆるオンラインアルゴリズムのように入力が入ってくるたびに何かしらの結果が得られるわけではない。また,ストリームの長さは有限である事を仮定している。 k-meansとは k-meansとはデータ点 X = {x_1 , ... x_

    Streaming k-means approximation - tsubosakaの日記
  • SpectralClustering - PukiWiki

    2018-01-09 FSH2007ST6/BarCode 2016-08-09 論理と計算 2014-11-17 (ymken)/Keplar Conjecture 2014-10-20 MenuBar 2014-08-28 Seminar/20140901 2014-07-09 RecentDeleted Seminar 2014-07-03 Sminar/20140905 2013-10-15 Seminar/20131026 2013-10-08 (ymken)/卒業レポート

  • 適切なクラスタ数を推定するX-means法 - kaisehのブログ

    K-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は(特に根拠もなく)200個に決め打ちになっていました。 これに対して、X-means法というK-means法の拡張が提案されていることを知りました。X-means法を使うと、データに応じて最適なクラスタ数を推定できます。 K-means and X-means implementations http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf X-means法の考え方は、K=2で再帰的にK-means法を実行していくというもので、クラスタの分割前と分割後でBIC(ベイズ情報量規準)を比較し、値が改善しなくなるまで分割を続けます。 調べたところ、Javaのデータマイニングツー

    適切なクラスタ数を推定するX-means法 - kaisehのブログ
  • k-means++を試し中 - のんびり読書日記

    http://d.hatena.ne.jp/kaiseh/20090113/1231864089 上の記事を見て、k-means++が面白そうだったので、ちょっとだけ試してみた。 k-meansは初期値に大きく依存するところが嫌い。初期値への依存度を軽減するために、初期値を変えて何回か試行してその中で一番良い結果のものを使用する、なんてことをしないといけない。そのため処理時間も馬鹿にならなくなってしまうので、ちょっとこれじゃあなあ…ということで使ってなかった。 でも今回のk-means++は初期値をうまく求めることで、精度と速度の向上が得られるらしい。これはうれしい! 論文著者のページにサンプルコードがあったので試してみようと思ったんだけど、MFCを使っているみたいで僕の環境ではコンパイルできず…。 http://www.stanford.edu/~darthur/kMeansppTest

    k-means++を試し中 - のんびり読書日記
  • 1