Seasar, WebService昨日のSeasar Conference 2009 Autumnで発表させていただいた『Blogopolisの裏側』の資料を公開します。Blogopolisの裏側View more documents from kaiseh.資料の28枚目に、重み付きボロノイ図の重心ベースレイアウトの説明用動画がありまし... 続きを読む
AlgorithmK-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は(特に根拠もなく)200個に決め打ちになっていました。これに対して、X-means法というK-means法の拡... 続きを読む
夜中の3時半過ぎですが、久しぶりになんか書こうと思います。ちょっと前にmixiのfujisawaさんという方がすごくナイスなソフトウェアをリリースしてくれました。「軽量データクラスタリングツールbayon」http://alpha.mixi.co.jp/blog/?p=1049今までにもCLUTOと... 続きを読む
集合知プログラミング を読んでいたら、K-means 法(K平均法)の説明が出てきました。K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作って... 続きを読む
プチ間空きましたが、「IIR の「効果的な」階層的クラスタリング」の続き。 「次回は feature selection で次元を落とすのを試してみるべき」と書いたとおり、feature selection(特徴選択)を行ってみます。 要は「25文書しかないのに 8000 語とか多すぎる。文... 続きを読む
クラスタリング(clustering)とは,分類対象の集合を,内的結合(internal cohesion)と外的分離(external isolation)が達成されるような部分集合に分割すること [Everitt 93] [大橋 85] です.統計解析や多変量解析の分野ではクラスター分析(cluster analysis)と... 続きを読む
IR の階層的クラスタリングを試すの続きです。 "efficient" な HAC(hiererachical agglomerative clustering) を実装してみます。 今回は、コード全体をぺたぺた貼り付けるのも見にくいし面倒だしということで、github に置いてみました。 git://github.com/shu... 続きを読む
Pathtraq で Web ページの自動分類を手がけてみて。 Web ページは日々どんどん変わっていくのでフィルタは常に更新されなければいけないんですが、そのためには適切なタイミングに、適切な学習データを用意しなければならない。大変。 メンテナンスフリーが理想... 続きを読む
機械学習系のエントリを続けて書いてみる。クラスタリングについて知らない人は以下のエントリ読んでもちんぷんかんぷんだと思うので、クラスタリングという概念については知っているものとする。それで、今日はスペクトラルクラスタリングの話。自然言語処理以... 続きを読む
AlgorithmK-means法は、入力データからK個のランダムな個体を初期クラスタの中心として選択し、以降、クラスタの重心を移動させるステップを繰り返すことでクラスタリングを行う非階層的手法です。K-means法はシンプルで高速ですが、初期値依存が大きいのが弱点... 続きを読む
具体例で学ぶ!情報可視化のテクニック 第6回 はてなブックマークの可視化(後編) 2008年10月14日 浜本階生 1 2 3 4 はじめに 最終回となる今回は,これまでの学習内容のまとめとして,はてなブックマークの人気エントリーをツリーマップとして可視化します。... 続きを読む
WebService日本のニュースを地図化して俯瞰できる『Newsgraphy』というサービスを作りました。Newsgraphy6月に公開して大きな反響をいただいたHatenarMapsの可視化手法を、Yahoo!のトピックスAPIから取得したニュース記事に適用して、いろいろと機能強化を施し... 続きを読む
具体例で学ぶ!情報可視化のテクニック 第3回 ツリーマップによる木構造の可視化(前編) 2008年9月19日 浜本階生 1 2 3 はじめに 前回は,統計学的観点からの情報可視化へのアプローチとして,「階層的クラスタリング」の手法を紹介し,その実装と動作確認を... 続きを読む
具体例で学ぶ!情報可視化のテクニック 第2回 階層的クラスタリングによる特徴抽出 2008年9月11日 浜本階生 1 2 3 4 はじめに 前回は,情報可視化の基本的な考え方について,HatenarMapsなどの実例を示しながら説明しました。第2回以降は,Java言語を使用して... 続きを読む
book集合知プログラミング作者: Toby Segaran, 當山仁健, 鴨澤眞夫出版社/メーカー: オライリージャパン発売日: 2008/07/25メディア: 大型本前回Blog中の単語の出現数を元にBlog同士の類似性をピアソン相関で計算し、類似度の高いものが近くにくるようなデータ... 続きを読む
入力に用いられるデータはCSVあるいはタブ区切りの行列で、 その第一列に遺伝子名のようなラベルを含めることができます。 ただし、ラベルを含む行列の場合は、入力時にその旨を指定する必要があります。 このフォーマットは、このシステムで行列を入力する場合... 続きを読む
嵯峨山 茂樹: 応用音響学 D2-Clustering edu/appl-acoust/2003/D2-Clustering.tex / 1 東京大学 工学部 計数工学科 応用音響学 D2 - クラスタリング 嵯峨山 茂樹 <sagayama@hil.t.u-tokyo.ac.jp> 東京大学 工学部 計数工学科 資料所在 http://hil.t.u-tokyo.ac... 続きを読む