タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

clusteringに関するHashのブックマーク (2)

  • 車輪の再発明は避けるべき,を実感 - ny23の日記

    ここ最近,Percy Liang の Brown クラスタリングの実装を使って単語クラスタリングしていたのだけど,感覚的に実行速度が遅いと感じたので,これぐらい簡単なアルゴリズムなら再実装しても良いかと思って,以下の原著を見ながら C++ で実装してみた. Class-based n-gram models of natural language (Computational Linguistics, 1992) 単純なだけに300行ぐらいで実装できたが,相互情報量の損失の計算をサボるところが少し面倒で,既存実装と結果が一致するまでに丸一日かかった*1. 自分の実装と既存実装の処理速度を比べたところ 5-10 倍ぐらい速くなっており(大規模データを扱う場合には実行速度が 2 倍違うだけでも致命的なので)再実装して良かったと一瞬ぬか喜びしたのだけど,同じ C++ で同じアルゴリズムを実装して

    車輪の再発明は避けるべき,を実感 - ny23の日記
    Hash
    Hash 2012/11/20
    単語クラスタリング
  • 軽量データクラスタリングツールbayon - mixi engineer blog

    逆転検事を先日クリアして、久しぶりに逆転裁判1〜3をやり直そうか迷い中のfujisawaです。シンプルなデータクラスタリングツールを作成しましたので、そのご紹介をさせていただきます。 クラスタリングとは クラスタリングとは、対象のデータ集合中で似ているもの同士をまとめて、いくつかのグループにデータ集合を分割することです。データマイニングや統計分析などでよく利用され、データ集合の傾向を調べたいときなどに役に立ちます。 例えば下図の例ですと、当初はデータがゴチャゴチャと混ざっていてよく分からなかったのですが、クラスタリングすることで、実際は3つのグループのデータのみから構成されていることが分かります。 様々なクラスタリング手法がこれまでに提案されていますが、有名なところではK-means法などが挙げられます。ここでは詳細については触れませんが、クラスタリングについてより詳しく知りたい方は以下の

    軽量データクラスタリングツールbayon - mixi engineer blog
  • 1