[B! clustering] m_ohashiのブックマーク

m_ohashi id:m_ohashi

clusteringに関するm_ohashiのブックマーク (12)

Google Code Archive - Long-term storage for Google Code Project Hosting.
Code Archive Skip to content Google About Google Privacy Terms
m_ohashi 2010/03/04
clustering

manager

java

memcached

scalability

tomcat

session
リンク
適切なクラスタ数を推定するX-means法 - kaisehのブログ
K-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は（特に根拠もなく）200個に決め打ちになっていました。これに対して、X-means法というK-means法の拡張が提案されていることを知りました。X-means法を使うと、データに応じて最適なクラスタ数を推定できます。 K-means and X-means implementations http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf X-means法の考え方は、K=2で再帰的にK-means法を実行していくというもので、クラスタの分割前と分割後でBIC（ベイズ情報量規準）を比較し、値が改善しなくなるまで分割を続けます。調べたところ、Javaのデータマイニングツー
m_ohashi 2009/06/29
clustering

algorithm
リンク
クラスタリングツール「bayon」を試してみた - download_takeshi’s diary
夜中の3時半過ぎですが、久しぶりになんか書こうと思います。ちょっと前にmixiのfujisawaさんという方がすごくナイスなソフトウェアをリリースしてくれました。「軽量データクラスタリングツールbayon」 http://alpha.mixi.co.jp/blog/?p=1049 今までにもCLUTOというすごく高精度なクラスタリングツールがありましたが、こいつはライセンス的にちょっとイケズな感じでした。そこにbayonがスーパーマンのように登場してくれました！「商用利用OKだよ」ということで、仕事の上での悩みが解決しました。本当にありがたいことです。さてさて、早速使ってみたいんですが、ブログに書くのにちょうどいい題材がなかったので、以前に自分が書いたエントリからデータを持ってくることにしました。「芸能人の相関関係を探ってみるスクリプト」 http://d.hatena.ne.jp
m_ohashi 2009/06/23
programming

recommendation

clustering

statictics
リンク
軽量データクラスタリングツールbayon - mixi engineer blog
逆転検事を先日クリアして、久しぶりに逆転裁判1〜3をやり直そうか迷い中のfujisawaです。シンプルなデータクラスタリングツールを作成しましたので、そのご紹介をさせていただきます。クラスタリングとはクラスタリングとは、対象のデータ集合中で似ているもの同士をまとめて、いくつかのグループにデータ集合を分割することです。データマイニングや統計分析などでよく利用され、データ集合の傾向を調べたいときなどに役に立ちます。例えば下図の例ですと、当初はデータがゴチャゴチャと混ざっていてよく分からなかったのですが、クラスタリングすることで、実際は3つのグループのデータのみから構成されていることが分かります。様々なクラスタリング手法がこれまでに提案されていますが、有名なところではK-means法などが挙げられます。ここでは詳細については触れませんが、クラスタリングについてより詳しく知りたい方は以下の
m_ohashi 2009/06/10
recommendation

mixi

statistics

clustering

algorithm

ai
リンク
クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた - てっく煮ブログ
集合知プログラミングを読んでいたら、K-means 法（K平均法）の説明が出てきました。K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。クリックすると１ステップずつ動かすことができます。クラスタの数や点の数を変更して、RESET を押すと好きなパラメータで試すことができます。こうやって１ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。K-means 法とはK平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージになります。各点にランダムにクラスタを割り当てるクラスタの重心を計算する。点のクラスタを、一番近い重心のクラスタに変更する変化がなければ終了。変化がある限りは 2. に戻る。これ
m_ohashi 2009/04/09
recommendation

clustering

algorithm
リンク
クラスタリング (クラスター分析) - Toshihiro Kamishima
クラスタリング (clustering) とは，分類対象の集合を，内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です．統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ，基本的なデータ解析手法としてデータマイニングでも頻繁に利用されています．分割後の各部分集合はクラスタと呼ばれます．分割の方法にも幾つかの種類があり，全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは，クリスプなクラスタといいます)や，逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト，または，ファジィなクラスタといいます)があります．ここでは前者のハードな場合のクラスタリングについて述べます．
m_ohashi 2009/01/14
search

statistics

clustering
リンク
Hadoop: The Definitive Guide: Rough Cuts Version | O'Reilly Media
© 2008, O'Reilly Media, Inc. (707) 827-7000 / (800) 998-9938 All trademarks and registered trademarks appearing on oreilly.com are the property of their respective owners.
m_ohashi 2008/09/19
hadoop

clustering

java

book
リンク
Last.fm – the Blog · Python + Hadoop = Flying Circus Elephant
As a research intern here at Last.fm, dealing with huge datasets has become my daily bread. Having a herd of yellow elephants at my disposal makes this a lot easier, but the conventional way of writing Hadoop programs can be rather cumbersome. It generally involves lots of typing, compiling, building, and moving files around, which is especially annoying for the “write once, run never again” progr
m_ohashi 2008/06/01
clustering

hadoop

java

Python

programming

mapreduce
リンク
PostgreSQLの可用性と拡張性を向上 PostgresForest
PostgresForestは，複数台のPostgreSQLサーバーを仮想的に1つに統合し，並列分散動作させるソフトウエアである。同ソフトを導入することで，PostgreSQLで構築したデータベース・サーバーの可用性や拡張性を向上できる。この数年間でLinuxを中心としたオープンソース・ソフトウエア（OSS）は，目覚しい発展を遂げている。特に，Webサーバーに「Apache HTTP Server」，アプリケーション・サーバーに「Tomcat」，データベース・サーバーに「PostgreSQL」を用いた3層システムは，Webシステムの定番と呼べる存在になった。ただし，Webシステムの可用性や拡張性を考慮した場合には，これらのソフトウエアだけでは不十分だ。Webサーバーとアプリケーション・サーバーはともに，複数台を並列に動作させれば可用性や拡張性を確保できる。しかし，データベース・サーバー
m_ohashi 2008/01/31
PostgreSQL

database

clustering
リンク
pgpool-II README
(*)The function of the replication and the load-balancing cannot be used for the table preserved by dividing data in Parallel Query Mode. Configuring pcp.conf pgpool-II provides the control interface where an administrator can collect pgpool-II status, and terminate pgpool-II processes via network. The pcp.conf is the user/password file for authentication with the interface. All modes require the
m_ohashi 2008/01/09
DB

performance

PostgreSQL

server

clustering
リンク
[ThinkIT] Javaアプリケーションサーバのクラスタリング機能比較第2回：Tomcatのクラスタ設定
現在（2005年10月）のバージョンのTomcatで使用されている"all-to-all"のセッションレプリケーションでは、クラスタグループ内にあるすべてのTomcatが同じセッション情報を共有します。"all-to-all"のセッションレプリケーションの方式はわかりやすい形ではありますが、クラスタグループ内のサーバの台数が多いとセッション間で情報のやり取りが多くなるため、ネットワークのトラフィックが増大してしまいます。そのため、少ない台数のTomcatで同じセッション情報を共有する"primary-secondary"のセッションレプリケーションが望まれています。"primary-secondary"であれば、セッションレプリケーションされる情報は「プライマリサーバ」と「セカンダリサーバ」の2台の間でのみやり取りされるため、ネットワークにかかる負荷はそれほど大きくなりません（図2）。
m_ohashi 2007/06/14
TOMCAT

server

clustering
リンク
大量トランザクション処理に適したアーキテクチャ ― ＠IT
大量トランザクションを処理するためには、アプリケーション・サーバを複数台並べて負荷分散する一方で、マルチプロセッサのDBサーバを採用しDB処理能力を確保するアーキテクチャが用いられることが多い。さらに高い処理能力が求められる場合には、DBの並列処理やオン・メモリ処理を併用するデザインもあるが、重要なことはスケーラビリティを確保するアーキテクチャ設計と、負荷を平準化する工夫である。
m_ohashi 2006/11/17
performance

clustering

server

database
リンク
1