[B! clustering] satojkovicのブックマーク

軽量データクラスタリングツールbayon - mixi engineer blog

逆転検事を先日クリアして、久しぶりに逆転裁判1〜3をやり直そうか迷い中のfujisawaです。シンプルなデータクラスタリングツールを作成しましたので、そのご紹介をさせていただきます。クラスタリングとはクラスタリングとは、対象のデータ集合中で似ているもの同士をまとめて、いくつかのグループにデータ集合を分割することです。データマイニングや統計分析などでよく利用され、データ集合の傾向を調べたいときなどに役に立ちます。例えば下図の例ですと、当初はデータがゴチャゴチャと混ざっていてよく分からなかったのですが、クラスタリングすることで、実際は3つのグループのデータのみから構成されていることが分かります。様々なクラスタリング手法がこれまでに提案されていますが、有名なところではK-means法などが挙げられます。ここでは詳細については触れませんが、クラスタリングについてより詳しく知りたい方は以下の

satojkovic 2010/07/18

リンク

BLOG::broomie.net: 各種分類器の分類精度を示した絵がおもしろい

今日会社で多次元のデータを２次元にクールでベストプラクティスな感じでプロットするにはどうしたらいいんだろうね、やっぱ多次元尺度構成法じゃない？的な会話をしていたのだけれども、２次元にデータを落とし込むと人間にもわかるデータになって本当におもしろいですよね。今日はその一例というか、いくつかの分類器の分類精度を２次元にプロットした結果を示した実験結果を解説したページを紹介します。おおーこうゆうのみたかったんだよなー！と個人的にはかなりエキサイティングな感じでした。要約というか意訳になってしまうのですが、ページに以下のように説明されています。(細かいところは訳してません) http://home.comcast.net/~tom.fawcett/public_html/ML-gallery/pages/index.html 分類タスクの機械学習の研究では定量的な評価が重要です(精度とかACUと

satojkovic 2009/09/24

リンク

スペクトラルクラスタリングは次元圧縮しながらKmeansする手法 - 武蔵野日記

機械学習系のエントリを続けて書いてみる。クラスタリングについて知らない人は以下のエントリ読んでもちんぷんかんぷんだと思うので、クラスタリングという概念については知っているものとする。それで、今日はスペクトラルクラスタリングの話。自然言語処理以外でも利用されているが、これはグラフのスペクトルに基づくクラスタリングの手法で、半教師あり学習への拡張がやりやすいのが利点。なにをするかというとクラスタリングをグラフの分割問題(疎であるエッジをカット)に帰着して解く手法で、どういうふうに分割するかによって Normalized cut (Ncut) とか Min-max cut (Mcut) とかいろいろある。完全にグラフが分割できる場合はこれでめでたしめでたしなのだが、実世界のグラフはそんな簡単に切れないことが往々にしてある。それで近似してこのグラフ分割問題を解くのだが、Normalized c

satojkovic 2009/09/16

リンク

『Blogopolisの裏側』発表資料 - kaisehのブログ

昨日のSeasar Conference 2009 Autumnで発表させていただいた『Blogopolisの裏側』の資料を公開します。 Blogopolisの裏側View more documents from kaiseh. 資料の28枚目に、重み付きボロノイ図の重心ベースレイアウトの説明用動画がありました。その動画は以下にアップしました。講演者の皆さん、運営の皆様、本当にお疲れ様でした！追記 id:mi-changさん p14ででてる「頂点数」、「多角形数」って何を意味してるんだろう?頂点数が多いということはより多くのタグと結びついているってこと? これは、1つ1つのエントリーやブログ、地区（カテゴリ）に対応する土地の幾何データのことです。例えば、5角形の土地の場合は5個の頂点座標が必要になります。土地の頂点数はレイアウト上の理由で決まるもので、タグとは直接関係はありません。

satojkovic 2009/09/15

リンク

pLSIを試してみた - のんびり読書日記

これまでにK-means++とfuzzy c-meansを使用したクラスタリングを試してきましたが、今回はpLSI(probabilistic latent semantic indexing, 潜在的意味インデキシング)によるクラスタリングを試してみようと思います。 pLSIは確率・統計的な枠組みで次元縮約を行う枠組みで、なかなか精度がよいらしく色々な論文で見かけます。Google NewsのレコメンドでもpLSIを使用しており、MapReduceで処理を並列化させて高速に実行しているそうです(論文読んでないので間違っているかも)。また入力ベクトルをあらかじめ重み付けしておく必要がなく、文書であれば単語の頻度をそのまま入力として使用できるのもうれしいところです。より詳しくは以下のWikipediaのエントリか、書籍をご参照下さい。(書籍は処理結果の表8.4が並びがグチャグチャになってる

satojkovic 2009/09/03

リンク

はてなブログ | 無料ブログを作成しよう

セメントドリンク、ブラウン管、吊るされた収納、OMORIカフェ、くり抜き、どや顔の初音ミクパチミラ福岡に出演する縁で博多に行きました。楽しかったのでその時の写真をアップロードします。博多駅のハートポスト手描きのグリッチカニの丸揚げ(おいしかった) フレッシュセメントという名前の飲み物(おいしかった)ごま+バナナスムージーっぽかった？泡系…

satojkovic 2009/06/30

C++のサンプルプログラムあり

リンク

適切なクラスタ数を推定するX-means法 - kaisehのブログ

K-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は（特に根拠もなく）200個に決め打ちになっていました。これに対して、X-means法というK-means法の拡張が提案されていることを知りました。X-means法を使うと、データに応じて最適なクラスタ数を推定できます。 K-means and X-means implementations http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf X-means法の考え方は、K=2で再帰的にK-means法を実行していくというもので、クラスタの分割前と分割後でBIC（ベイズ情報量規準）を比較し、値が改善しなくなるまで分割を続けます。調べたところ、Javaのデータマイニングツー

satojkovic 2009/06/29

k-means法の拡張。データに応じて最適なクラスタ数を推定できる。

リンク

クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた - てっく煮ブログ

集合知プログラミングを読んでいたら、K-means 法（K平均法）の説明が出てきました。K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。クリックすると１ステップずつ動かすことができます。クラスタの数や点の数を変更して、RESET を押すと好きなパラメータで試すことができます。こうやって１ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。K-means 法とはK平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージになります。各点にランダムにクラスタを割り当てるクラスタの重心を計算する。点のクラスタを、一番近い重心のクラスタに変更する変化がなければ終了。変化がある限りは 2. に戻る。これ

satojkovic 2009/04/09

リンク

GoogleNewsのレコメンドの中身 - UMEko Branding

先日、全体ゼミで発表したときの内容ですが、ここにまとめときます。。GoogleNewsのレコメンドの中身を追った論文の要約です。少し前の全体ゼミで用いた資料です。ソース：Abhinandan Das,Mayur Datar,Ashutosh Garg,Shyam Rajaram,"Google News Personalization: Scala ble OnlineCollaborative Filtering",WWW2007不勉強な個所が多々ありますので、誤っている箇所等ありましたら、是非ご指摘ください。個人的には、最近のモデルベースの手法の勉強・おさらいという意味で用いているので、GoogleNews独自の拡張なり実装の部分の内容が省かれている場合があります。また、データ構造やMapReduceを用いた計算の仕組みの部分は、ここでは省略しています。。一応、全体像　・LSH(Lo

satojkovic 2008/12/22

リンク

クラスタリングによる迷路作成アルゴリズム

はじめにクラスタリングアルゴリズムにより、解くと絵が浮かび上がる迷路を作成する方法を紹介する。クラスタリングとはウェブのリンク情報や、mixiの友人関係など、ネットワークの性質を知りたいことがよくある。このとき、ネットワークの性質としてこのネットワークにおいて任意に選んだ要素Aと要素Bはつながっているか？このネットワークは全体がつながっているか？つながっていないとしたらいくつのグループに分かれるか？要素数最大のグループはどれか？などの情報が欲しくなる。このような解析をするときに必要となるのがクラスタリングである。クラスタリングとは、同値関係のリストが与えられたときにグループ分けをすることである。たとえば、友達の友達は友達であると定義すると、友人関係は同値関係を作る。その上で、 A君とB君は友達 C君とE君は友達 B君とD君は友達という情報が分かっていると、

satojkovic 2008/06/21

リンク

332パターン認識 - 過去を知れば未来が分かる

世の中には、既に分かっている過去のデータがあります。このデータを利用しない手はありません。過去のデータを利用すれば、もし分からない未来のデータが出現した場合、過去のパターンから有効な知識として活用させることができます。　今回、ご紹介するのはそんな過去を知れば未来が見えてくる手法です。概して『パターン認識』と呼ばれる手法とその類です。「パターン認識」、難しい言葉に聞こえるかもしれませんが、我々は常にパターン認識をしております。例えば、ある人の顔を見たときに瞬時に記憶の中から誰なのか識別してますし、初めて見る場合でも似たような人物を探しどんな人間なのか当てはめたりすることもできます。楽しいときはどんな表情をするか、苦しいときはどんな表情をするかという「パターンクラス」を私たちは持っています。初めて会う人の表情でさえ、感情をよみとる能力を持ち合わせています。それがパターン認識です。

satojkovic 2005/10/11

リンク

Open source Clustering software

The open source clustering software available here contains clustering routines that can be used to analyze gene expression data. Routines for hierarchical (pairwise simple, complete, average, and centroid linkage) clustering, k-means and k-medians clustering, and 2D self-organizing maps are included. The routines are available in the form of a C clustering library, an extension module to Py

satojkovic 2005/10/01

リンク

RSS Clustering: A Unique Approach for Managing Your RSS Feeds | Organizing RSS Feeds | InformIT

The rapid growth of RDF site summary (RSS)feeds has facilitated the consumption of information that has been part of the promise of the Internet. RSS, a standard XML format that works well for dynamic sites such as blogs and news outlets, enables consumers to easily digest updated information without having to periodically visit every web site they track. One consequence, however, is that many RSS

satojkovic 2005/10/01

clustering

リンク

��ΰ渶 - ʸ�񥯥饹��󥰤μ�ˡ��

��ʸ��򥯥饹��󥰤��ˡ�Ȥ��ΤϤ��줳��ۤ��Ƥ��Ƥ��ΤǤ��θ�ή��é��ȳ��ͤ��Ĥ��˹Ԥ��夯�餷��Ǥ�� ʡ֤��ꥹ�Ȥ˲ä��٤��פȤ��֤��μ�ˡ�ʤ餳�Υڡ��ѡ��Τۤ��ɤ��פȤ��Τ��Х��ȤǤ��Ŧ��ޤ�� Naive Beyes (�ʥ��֡��٥��) David D. Lewis and Marc Ringuette. A comparison of two learning algorithms for text categorization. In Proceed-ings of SDAIR-94, 3rd Annual Symposium on DocumentAnalysi

satojkovic 2005/09/30

リンク

クラスタリング (クラスター分析) - Toshihiro Kamishima

クラスタリング (clustering) とは，分類対象の集合を，内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です．統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ，基本的なデータ解析手法としてデータマイニングでも頻繁に利用されています．分割後の各部分集合はクラスタと呼ばれます．分割の方法にも幾つかの種類があり，全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは，クリスプなクラスタといいます)や，逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト，または，ファジィなクラスタといいます)があります．ここでは前者のハードな場合のクラスタリングについて述べます．

satojkovic 2005/09/22

clustering

リンク

RSS clustering

id:kawasakiさんの日記「Google Newsが自分で作れる？」でも取り上げられてますが、O'Reilly Radarで知った英語圏でのRSS Clustering実装例。 rssclustering 一般的なBlog,SBM等が生成するRSSにクラスタリングが適用できないかと思って、クラスタリングについて5月くらいから調査していたので、個人的にちょうどいいタイミングの記事。簡単にまとめると、集約期間を変更可能にするため、RSSフィードから取得したデータはDBに保存句読点、stop word(i,you,and,to,world,national,a等)の削除単語を基本形にする(fires,fired,fireは同じものとして扱う) 集約結果表示時は一つの情報ソースを複数のクラスタに重複表示しない(これは重複表示したほうがよい場合もあるかもしれないけど、データ量が多くなる

satojkovic 2005/07/15

clustering

リンク

Google Newsが自分で作れる？ - 川崎裕一 / マネタイズおじさん

an RssClustering app he calls Monkey News. It's been running for years. No source code, but he describes his method. (Found via BBC Backstage). Google News風まとめサイトを自分で作りたいという人向けの記事がありました。 rssclustering [MyWiki] プロジェクトの要約を見てみると、 RSSフィードが大きく伸びている昨今、多くのRSS購読者はもはや圧倒的な新着記事を管理しきれない状態になっている。だから、システム側で重複した情報をひとまとめにして、余計な者は削除してくれる。で、その中から興味深いものを選び出してくれることが求められている。ということが書いてあります。曰く、RSSリーダーの目的は、自動でコンテンツを集めて

satojkovic 2005/07/14

clustering

リンク

http://blog.windy.ac/archives/000847.html

satojkovic 2005/07/13

論文を知りたい

リンク

Intranet DEIB

Questo Sito è accessibile solo tramite la rete interna del Politecnico di Milano, oppure autenticandosi con le credenziali di Aunica LOG-IN

satojkovic 2005/06/12

clustering

リンク

del.icio.usのタグ・クラウドをクラスタリングするdel.icio.us tag clusterer - huixingの日記

どのタグ・クラウドも一様で面白味がないのでhttp://www.fladdict.net/blog-jp/archives/2005/05/post_79.phpでのタギングの可視化のような提案が出てくるのだけれども，del.icio.us tag clustererはk-meansというクラスタリング・アルゴリズムを使ってdel.icio.usのタグ・クラウドをクラスタリングしてくれる。 http://laurie.informatik.uni-bremen.de/clusty/ http://laurie.informatik.uni-bremen.de/kbthesis/?p=5 Technorati Tags: del.icio.us, tag, clustering

satojkovic 2005/05/31

K-means法を使ってクラスタリング

リンク

はてなブックマーク

タグ

関連タグで絞り込む (12)

clusteringに関するsatojkovicのブックマーク (21)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス