タグ

algorithmとclusteringに関するmanabouのブックマーク (3)

  • 大規模データのクラスタリングには Mini Batch K-Means を使うべきという話 | 10001 ideas

    タイトルの通りですが、大規模データをクラスタリングする際には単純なK-Means法ではなく、Mini Batch K-Means法を使うべきという話です。 とある大規模データ(150万件ほどの文章ベクトル)をクラスタリングしたいことがあったのですが、単純にScikit-learnのK-Means法に投げてクラスタリングを走らせていたところ、数時間経っても一向に終わる気配がありませんでした。色々と調べていると、大規模データのクラスタリングにはMini Batch K-Means法を使うべきという記述を見つけました。公式ドキュメントによると、大体1万件を超えるデータをクラスタリングする場合にはMini Batch K-Meansを使うべきとのことです。 APIとしては単純にKMeansをMiniBatchKMeansに置き換えれば動きます。理論的な背景としては、論文 “Web Scale K-

    大規模データのクラスタリングには Mini Batch K-Means を使うべきという話 | 10001 ideas
  • 情報科学における18のメタテクニック

    情報科学でよく使われるメタテクニックについての紹介です。取り上げたのはキャッシング、[ノン]ブロッキング、プロファイリング、パイプライニング、投機的実行、条件の緩和、Eager/Lazy、フィルタリング、再利用、並列化、結合/分離、多階層/クラスター化、先読み/先取り、動的適応、複製、仮想化、チェックポイント、トランザクションの計18個です。

    情報科学における18のメタテクニック
  • クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた - てっく煮ブログ

    集合知プログラミング を読んでいたら、K-means 法(K平均法)の説明が出てきました。K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。クリックすると1ステップずつ動かすことができます。クラスタの数や点の数を変更して、RESET を押すと好きなパラメータで試すことができます。こうやって1ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。K-means 法とはK平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージになります。各点にランダムにクラスタを割り当てるクラスタの重心を計算する。点のクラスタを、一番近い重心のクラスタに変更する変化がなければ終了。変化がある限りは 2. に戻る。これ

  • 1