タグ

2009年6月10日のブックマーク (3件)

  • 軽量データクラスタリングツールbayon - mixi engineer blog

    逆転検事を先日クリアして、久しぶりに逆転裁判1〜3をやり直そうか迷い中のfujisawaです。シンプルなデータクラスタリングツールを作成しましたので、そのご紹介をさせていただきます。 クラスタリングとは クラスタリングとは、対象のデータ集合中で似ているもの同士をまとめて、いくつかのグループにデータ集合を分割することです。データマイニングや統計分析などでよく利用され、データ集合の傾向を調べたいときなどに役に立ちます。 例えば下図の例ですと、当初はデータがゴチャゴチャと混ざっていてよく分からなかったのですが、クラスタリングすることで、実際は3つのグループのデータのみから構成されていることが分かります。 様々なクラスタリング手法がこれまでに提案されていますが、有名なところではK-means法などが挙げられます。ここでは詳細については触れませんが、クラスタリングについてより詳しく知りたい方は以下の

    軽量データクラスタリングツールbayon - mixi engineer blog
  • Kazuho@Cybozu Labs: Pacific という名前の分散ストレージを作り始めた件

    大規模なウェブアプリケーションのボトルネックがデータベースであるという点については、多くの同意が得られるところだと思います。解決策としては、同じ種類のデータを複数の RDBMS に保存する「sharding」 (別名:アプリケーションレベルパーティショニング/レベル2分散注1) が一般的ですが、最近では、分散キーバリューストア (分散 KVS) を使おうとする試みもみられるようになってきています。 分散 KVS が RDBMS sharding に対して優れている要素としては、事前の分割設計が不要で、動的なノード追加(とそれにともなう負荷の再分散)が容易、といった点が挙げられると思います。一方で、Kai や Kumofs のような最近の実装では eventually consistent でこそ無くなってきているものの、ハッシュベースの分散 KVS は、レンジクエリができなかったり (例:

  • Interop Tokyo 2009のクラウドコンにkumofsで出場します - (ひ)メモ

    月曜からはじまったInterop Tokyo 2009ですが、6/11(木) 13:00からのクラウドコンピューティングコンペティション(略称:クラウドコン)に、古橋さん(id:viver)と一緒にチームえとらぼで出場します。 クラウドコンピューティングコンペティション(略称:クラウドコン) kumofsについての概略は、Key Value Store勉強会のときの彼の資料がありますのでこちらをどうぞ。 Key Value Store勉強会に行ってきました by kumofsのひと - 古橋貞之の日記 DHTとして、ノードが1つ2つ落ちたぐらいではサービスが停止しない・データが欠損しないというのはもちろんですが、kumofsは弊社で目下絶賛開発中のサービスのために開発されたプロダクトなので、「こういう動きの方が現場の運用がしやすい」という意見も取り込んで実装しています。この「運用しやすさ」

    Interop Tokyo 2009のクラウドコンにkumofsで出場します - (ひ)メモ