[B! clustering] jp-mykのブックマーク

jp-myk id:jp-myk

clusteringに関するjp-mykのブックマーク (6)

Não Aqui! » One-Class Clustering in the Text Domain
Ron Bekkerman; Koby Crammer. One-Class Clustering in the Text Domain. あるトピックに関連する文書と関連しない文書が混ざっている文書集合が与えられたとき，トピックに関連する文書集合（核）と関連しない文書（ノイズ）に分類する教師無し手法を提案し，その手法の理論的な裏づけを行う．まず，単語wのトピックへの関与度を表す指標として，ρ(w) = p(w) / q(w)を用いる．ここで，p(w)は与えられた文書集合中におけるwの出現確率，q(w)は膨大な文書集合（例えばGoogle Web1Tコーパスなど）中におけるwの出現確率である．ある文書dのトピック度をp(w)とq(w)のKL-divergenceで計ると， KL_d(p||q) = \sum_{w \in G} p(d, w) log{p(w)/q(w)} = \sum_
jp-myk 2010/11/12
one class co-clustering

clustering
リンク
COP-KMEANS(Constrained K-means)を試してみた - のんびり読書日記
制約付きクラスタリング・半教師ありクラスタリングは、クラスタリングをする際に制約を与えることで精度を向上させる手法です。制約は2つのデータ間の関係を定義した、以下がよく使われるようです。 must-link 同じクラスタに所属しなければならない cannot-link 同じクラスタに所属してはならない今回はとりあえず制約付きクラスタリングの論文で多く引用されていて、以下の論文を参考に実装してみました。手法がK-meansを少し改良しただけで一番簡単そうだったのと、最新の動向まで調べきれなかったので、まずはとっかかりとして。 "Constrained K-means Clustering with Background Knowledge", by Kiri Wagstaff, Claire Cardie, Seth Rogers, and Stefan Schroedl. ICML 20
jp-myk 2010/01/22
k-means

clustering
リンク
Streaming k-means approximation - tsubosakaの日記
実家に帰省中，電車の中で読んでた論文の紹介。概要 k-meansはクラスタリングテクニックとして非常に基本的な手法である。しかし、k-meansでは全データに対してラベリングを複数回繰り返す必要があり、全データ点を保存する必要がある、そこでk-meansの出力であるk個のクラスタ中心をワンパスで見つける方法を提案する。ここで得られるクラスタ中心は最適値と比較したときにO(log k)の近似となっているストリームアルゴリズムについて本論文で言っているStreamingの意味としては入力を前から見ていって、すべて保存しないアルゴリズムのことを言っている。いわゆるオンラインアルゴリズムのように入力が入ってくるたびに何かしらの結果が得られるわけではない。また，ストリームの長さは有限である事を仮定している。 k-meansとは k-meansとはデータ点 X = {x_1 , ... x_
jp-myk 2010/01/03
k-means

clustering

algorithm
リンク
SpectralClustering - PukiWiki
2018-01-09 FSH2007ST6/BarCode 2016-08-09 論理と計算 2014-11-17 (ymken)/Keplar Conjecture 2014-10-20 MenuBar 2014-08-28 Seminar/20140901 2014-07-09 RecentDeleted Seminar 2014-07-03 Sminar/20140905 2013-10-15 Seminar/20131026 2013-10-08 (ymken)/卒業レポート
jp-myk 2009/10/08
グラフ理論

clustering

spectral clustering
リンク
適切なクラスタ数を推定するX-means法 - kaisehのブログ
K-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は（特に根拠もなく）200個に決め打ちになっていました。これに対して、X-means法というK-means法の拡張が提案されていることを知りました。X-means法を使うと、データに応じて最適なクラスタ数を推定できます。 K-means and X-means implementations http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf X-means法の考え方は、K=2で再帰的にK-means法を実行していくというもので、クラスタの分割前と分割後でBIC（ベイズ情報量規準）を比較し、値が改善しなくなるまで分割を続けます。調べたところ、Javaのデータマイニングツー
jp-myk 2009/07/01
はてな

algorithm

Programming

clustering

クラスタリング

プログラミング
リンク
k-means++を試し中 - のんびり読書日記
http://d.hatena.ne.jp/kaiseh/20090113/1231864089 上の記事を見て、k-means++が面白そうだったので、ちょっとだけ試してみた。 k-meansは初期値に大きく依存するところが嫌い。初期値への依存度を軽減するために、初期値を変えて何回か試行してその中で一番良い結果のものを使用する、なんてことをしないといけない。そのため処理時間も馬鹿にならなくなってしまうので、ちょっとこれじゃあなあ…ということで使ってなかった。でも今回のk-means++は初期値をうまく求めることで、精度と速度の向上が得られるらしい。これはうれしい！論文著者のページにサンプルコードがあったので試してみようと思ったんだけど、MFCを使っているみたいで僕の環境ではコンパイルできず…。 http://www.stanford.edu/~darthur/kMeansppTest
jp-myk 2009/05/31
アルゴリズム

perl

clustering

クラスタリング

k-means
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx