IIJのMapReduce実装である「ddd」(Distributed Database Daemon)の話を聞いてきました。立ち話なのでごくさわりの部分だけでしたが、以下にメモしておきます。素人なので、理解が間違っていたらごめんなさい。 インターネットバックボーンのルーターの莫大なログを集計してトラフィックを解析するために開発 (emasaka注:元から散らばっているログを一箇所に集めずに集計できるので、MapReduce系に向いた用途か) GoogleのMapReduce論文を参考にフルスクラッチで実装 WinnyっぽいP2P技術も採用 Key-Value Storageによる分散ハッシュテーブル Amazon Dynamo? ノードを増やせばそれだけスケールするスケーラビリティ ノードが落ちてもほかのノードにもデータがある可用性 マスターがなくすべてのノードが完全に対等なP2P構成