以下サイトでTwitterのソーシャルグラフが配布されている。 # 103万人分、2.8億エッジという驚愕の規模 http://d.hatena.ne.jp/code46/20110130/p1 今回、このデータを題材としたコミュニティ抽出のプログラムを書いたので、開発過程のいろいろをまとめておく。 一部、Amazon Elastic MapReduceでの分散処理などもやってみたので、MapReduceやCloudに興味を持つ人にも利益があるかもしれない。特に、実アプリ開発を題材とした事例紹介はWeb上でも少ないようなので、そういった位置づけでは価値があるのではないかと思う。 ソーシャルグラフ、コミュニティ抽出(≒クラスタリング?)の概要については以下が分かりやすい。 http://www.slideshare.net/komiyaatsushi/newman-6670300 実は、以前