タグ

data-miningとk-means-clusteringに関するnabinnoのブックマーク (3)

  • クラスタリング (クラスター分析) - Toshihiro Kamishima

    クラスタリング (clustering) とは,分類対象の集合を,内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です.統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ,基的なデータ解析手法としてデータマイニングでも頻繁に利用されています. 分割後の各部分集合はクラスタと呼ばれます.分割の方法にも幾つかの種類があり,全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは,クリスプなクラスタといいます)や,逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト,または,ファジィなクラスタといいます)があります.ここでは前者のハードな場合のクラスタリングについて述べます.

    クラスタリング (クラスター分析) - Toshihiro Kamishima
  • k平均法 - Wikipedia

    k平均法(kへいきんほう、英: k-means clustering)は、非階層型クラスタリングのアルゴリズム。クラスタの平均を用い、与えられたクラスタ数k個に分類することから、MacQueen がこのように命名した。k-平均法(k-means)、c-平均法(c-means)とも呼ばれる。 何度か再発見されており、まず、Hugo Steinhusが1957年に発表し[1]、Stuart Lloydが1957年に考案し、E.W.Forgyが1965年に発表し[2]、James MacQueenが1967年に発表しk-meansと命名した[3]。 数式で表現すると、下記最適化問題を解くアルゴリズム[4]。アルゴリズムでは最小値ではなく初期値依存の極小値に収束する。 単純なアルゴリズムであり、広く用いられている。分類をファジィ化したファジィc-平均法やエントロピー法をはじめ、データ構造を発見す

    k平均法 - Wikipedia
  • 30分でわかる『R』によるデータ分析|データアーティスト

    オープンソースの統計解析ソフトである『R』は、多様な統計手法での解析が可能かつ高度なグラフィックを備えており、数学だけでなく商業、医療など幅広い分野のデータ解析において役立てられています。セッションでは『R』の基の使い方から実際のデータマイニングの手法に至るまでを、データサイエンティストの視点からわかりやすくご紹介いたします。 ------ 『講師紹介』 山 覚〔データアーティスト〕 データアーティスト株式会社 代表取締役社長 東京大学博士過程在籍時にアイオイクス株式会社のLPO事業に参画し、導入社数300社超のLPOツール「DLPO」の全アルゴリズムを開発。データマイニングを用いたウェブページの改善実績100社以上。論理化されたものはシステムで処理し、人が人にしかできない営みに集中する環境を作ることを理念として、データアーティスト株式会社代表に就任。

    30分でわかる『R』によるデータ分析|データアーティスト
  • 1