タグ

machinelearningとclusteringに関するmanabouのブックマーク (2)

  • 大規模データのクラスタリングには Mini Batch K-Means を使うべきという話 | 10001 ideas

    タイトルの通りですが、大規模データをクラスタリングする際には単純なK-Means法ではなく、Mini Batch K-Means法を使うべきという話です。 とある大規模データ(150万件ほどの文章ベクトル)をクラスタリングしたいことがあったのですが、単純にScikit-learnのK-Means法に投げてクラスタリングを走らせていたところ、数時間経っても一向に終わる気配がありませんでした。色々と調べていると、大規模データのクラスタリングにはMini Batch K-Means法を使うべきという記述を見つけました。公式ドキュメントによると、大体1万件を超えるデータをクラスタリングする場合にはMini Batch K-Meansを使うべきとのことです。 APIとしては単純にKMeansをMiniBatchKMeansに置き換えれば動きます。理論的な背景としては、論文 “Web Scale K-

    大規模データのクラスタリングには Mini Batch K-Means を使うべきという話 | 10001 ideas
  • 30分でわかる機械学習用語「クラスタリング(Clustering)」 - Qiita

    「クラスタリング(Clustering)という言葉を知っている」という程度の方を対象に、クラスタリングとは何か、どこで使えるのかという話から、どんな方法で実現するのかという話までを説明する記事です。 また、記事は、courseraで提供されているAndrew Ng氏の機械学習講義の内容を参考に、「クラスタリング」に関して説明するものです。 取り上げるアルゴリズムは「K-Means法」のみで、その他のアルゴリズムについて説明は行いませんのでご了承ください。 クラスタリングとは? 概要 「クラスタリング(または、クラスタ分析・クラスタ解析)」とは簡単に言えば、集団を、ある規則・共通項に従って分類・グルーピングする手法です。 データの集合をラベルなどの外的基準なしに分類する手法であり、「教師なし学習」の一種でもあります。 「教師なし学習」とは「教師あり学習」に対して使われる言葉です。 以下の画

    30分でわかる機械学習用語「クラスタリング(Clustering)」 - Qiita
  • 1