タグ

machinelearningとclusteringに関するmanabouのブックマーク (2)

  • 大規模データのクラスタリングには Mini Batch K-Means を使うべきという話 | 10001 ideas

    タイトルの通りですが、大規模データをクラスタリングする際には単純なK-Means法ではなく、Mini Batch K-Means法を使うべきという話です。 とある大規模データ(150万件ほどの文章ベクトル)をクラスタリングしたいことがあったのですが、単純にScikit-learnのK-Means法に投げてクラスタリングを走らせていたところ、数時間経っても一向に終わる気配がありませんでした。色々と調べていると、大規模データのクラスタリングにはMini Batch K-Means法を使うべきという記述を見つけました。公式ドキュメントによると、大体1万件を超えるデータをクラスタリングする場合にはMini Batch K-Meansを使うべきとのことです。 APIとしては単純にKMeansをMiniBatchKMeansに置き換えれば動きます。理論的な背景としては、論文 “Web Scale K-

    大規模データのクラスタリングには Mini Batch K-Means を使うべきという話 | 10001 ideas
  • 30分でわかる機械学習用語「クラスタリング(Clustering)」 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 「クラスタリング(Clustering)という言葉を知っている」という程度の方を対象に、クラスタリングとは何か、どこで使えるのかという話から、どんな方法で実現するのかという話までを説明する記事です。 また、記事は、courseraで提供されているAndrew Ng氏の機械学習講義の内容を参考に、「クラスタリング」に関して説明するものです。 取り上げるアルゴリズムは「K-Means法」のみで、その他のアルゴリズムについて説明は行いませんのでご了承ください。 クラスタリングとは? 概要 「クラスタリング(または、クラスタ分析・クラスタ解析

    30分でわかる機械学習用語「クラスタリング(Clustering)」 - Qiita
  • 1