This domain may be for sale!
前回は話だけで終わってしまったので、今回はソースコード中心です。 アイテム同士の距離の計算に必要な情報を出力するReducerを実装する という訳で早速ですが、前回延々と話をしていた事をReducerに実装します。 #!/usr/bin/php <?php require_once(dirname(dirname(__FILE__)).'/lib/HadoopStreaming/Reducer.php'); class Reducer extends HadoopStreaming_Reducer { public function reduce ( $key, $values ) { $wordcount = array(); while ( $values->has_next_value ) { list($id, $count) = explode(':', $values->cur
集合知プログラミング を読んでいたら、K-means 法(K平均法)の説明が出てきました。K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。クリックすると1ステップずつ動かすことができます。クラスタの数や点の数を変更して、RESET を押すと好きなパラメータで試すことができます。こうやって1ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。K-means 法とはK平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージになります。各点にランダムにクラスタを割り当てるクラスタの重心を計算する。点のクラスタを、一番近い重心のクラスタに変更する変化がなければ終了。変化がある限りは 2. に戻る。これ
多項モデル† 単純ベイズで文書分類をする場合によく用いられるのが多項モデル. 単純ベイズでは,文書 \(\mathbf{x}_i\) が与えられたとき,クラス \(c\) になる確率は次式 \[\Pr[c|\mathbf{x}]\propto\Pr[\mathbf{x}|c]\Pr[c]\] \(w\) 種類の語があるとき,文書ベクトル \(\mathbf{x}_i=(x_{i1},x_{i2},\ldots,x_{iw})\) の要素は,語 \(j\) が文書 \(i\) 内で生じる回数. 多項モデルでは,この要素の頻度が多項分布に従うとする.クラス \(c\) の任意の文書のある語を選んだとき,その語が語 \(j\) である確率を \(\theta_{cj}\) で表す.すると,文書 \(\mathbf{x}_i\) は次式で決まるクラスに分類される \[\arg\max_c=\ln\
嵯峨山 茂樹: 応用音響学 D2-Clustering edu/appl-acoust/2003/D2-Clustering.tex / 1 東京大学 工学部 計数工学科 応用音響学 D2 - クラスタリング 嵯峨山 茂樹 <sagayama@hil.t.u-tokyo.ac.jp> 東京大学 工学部 計数工学科 資料所在 http://hil.t.u-tokyo.ac.jp/∼sagayama/applied acoustics/ クラスタリング k-means アルゴリズム ベクトル量子化 LBG アルゴリズム セグメンタル k-means アルゴリズム 嵯峨山 茂樹: 応用音響学 D2-Clustering edu/appl-acoust/2003/D2-Clustering.tex / 2 クラスタリング1 内容 1. クラスタリング 2. k-meansアルゴリズム、LBGアル
クラスタリング (clustering) とは,分類対象の集合を,内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です.統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ,基本的なデータ解析手法としてデータマイニングでも頻繁に利用されています. 分割後の各部分集合はクラスタと呼ばれます.分割の方法にも幾つかの種類があり,全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは,クリスプなクラスタといいます)や,逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト,または,ファジィなクラスタといいます)があります.ここでは前者のハードな場合のクラスタリングについて述べます.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く