[B! k-means] mogwaingのブックマーク

試すのが難しい―機械学習の常識はMahoutで変わる

ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop（以下、Hadoop）の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」（以下、Mahout）です。本稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。そもそも、機械学習とは？機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ（すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ）、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。機械学習をビジネスに活用した例は、レコメンド（ユーザーや商品

mogwaing 2012/03/28

リンク

Streaming k-means approximation - tsubosakaの日記

実家に帰省中，電車の中で読んでた論文の紹介。概要 k-meansはクラスタリングテクニックとして非常に基本的な手法である。しかし、k-meansでは全データに対してラベリングを複数回繰り返す必要があり、全データ点を保存する必要がある、そこでk-meansの出力であるk個のクラスタ中心をワンパスで見つける方法を提案する。ここで得られるクラスタ中心は最適値と比較したときにO(log k)の近似となっているストリームアルゴリズムについて本論文で言っているStreamingの意味としては入力を前から見ていって、すべて保存しないアルゴリズムのことを言っている。いわゆるオンラインアルゴリズムのように入力が入ってくるたびに何かしらの結果が得られるわけではない。また，ストリームの長さは有限である事を仮定している。 k-meansとは k-meansとはデータ点 X = {x_1 , ... x_

mogwaing 2012/03/20

k-means#, Streaming k-means approximation

k-means

リンク

Mahout Programming : K-Means Clustering - hamadakoichi blog

Mahout でのデータマイニング。mahout.clustering.kmeans を使ったクラスター分析を実装してみた。Mahoutは、Hadoop上で動くデータマイニング・機械学習の各種アルゴリズムが実装されているライブラリ。クラスター分析クラスター分析の方法論自体の内容は以下のエントリにまとめてある。 R言語プログラミング：クラスター分析 - 階層的クラスタリング - hamadakoichi blog 第２回データマイニング+WEB 勉強会＠東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」 - hamadakoichi blog 第３回データマイニング+WEB 勉強会＠東京 (Tokyo.Webmining#3) を開催します - hamadakoichi blog R言語プログラミング：クラスター分析

mogwaing 2012/03/19

リンク

SLOT88 SumoBet88: Situs Agen Judi Online Slot Gacor Online Terbaru 2023

🎰Slot Gacor, ⚽️Sportsbook, ♠Live Casino, 🃏Poker Online, 🧮Togel Online, 🐠Tembak Ikan Sumobet88 merupakan salah satu pilihan situs judi Slot Online Indonesia resmi terpercaya dan bisa diandalkan. Kami juga dikenal sebagai salah satu pilihan situs Judi Online 24jam nonstop yang mampu memberikan layanan terbaik bagi seluruh membernya. Kehadiran situs ini tentu saja menjadi sebuah faktor terbaik ba

mogwaing 2009/03/17

リンク

K-means法によるクラスタリングのスマートな初期値選択を行うK-means++ - kaisehのブログ

K-means法は、入力データからK個のランダムな個体を初期クラスタの中心として選択し、以降、クラスタの重心を移動させるステップを繰り返すことでクラスタリングを行う非階層的手法です。K-means法はシンプルで高速ですが、初期値依存が大きいのが弱点で、不適切な初期値選択をすると間違った解に収束してしまいます。以下は、Introduction to Information Retrievalの16章に出てくる例です。 {d1, d2, ..., d6}をK=2でクラスタリングする場合、{{d1, d2, d4, d5}, {d3, d6}}が大域最適解ですが、初期クラスタの中心をd2, d5で与えると、{{d1, d2, d3}, {d4, d5, d6}}という誤った解に収束してしまいます。この問題を改善するK-means++という手法を見つけたので、試してみました。 K-means+

mogwaing 2009/01/15

リンク

k-means法 - 機械学習の「朱鷺の杜Wiki」

k-means法 (k-means method)† 次の目的関数を最小化する分割最適化クラスタリングの代表的手法． \[\mathrm{Err}(\{X_i\})=\sum_i^k\;\sum_{\mathbf{x}\in X_i}\;{\|\mathbf{x} - \bar{\mathbf{x}}_i\|}^2\] ただし，データ集合 \(X\) は，ベクトルで表現されたデータ \(\mathbf{x}\) の集合．クラスタ \(X_i\) は，データ集合の網羅的で互いに素な部分集合． \(\bar{\mathbf{x}}_i\) は \(X_i\) 中の重心(セントロイドともいう)． \(\|\cdot\|\) はユークリッドノルム． ↑ アルゴリズム† 入力はデータ集合 \(X\) とクラスタ数 \(k\)，および最大反復数 maxIter．初期化：データ集合をランダムに \(

mogwaing 2008/10/07

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

k-meansに関するmogwaingのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス