スレーブノード数を変化させた場合、100万件のデータの場合はノード数を増加させてもスループットがわずかしか向上しなかったが、1000万件のデータの場合はノード数にほぼ比例してスループットが向上した 12ノードの場合の性能は、処理時間にすると2分5秒である。実際にはこれにインポートなどの処理時間がかかるが、数分で終わるだろう。筆者らが開発に携わったRDBMSの実システムでは、約100万件の仕入データの買掛計上処理に約1時間を要していた。それに比べると100倍近い性能になる。 もちろん、検証環境では「実データより性能が得られやすい分布のデータを使用した」「検証用のプログラムは実システムと比べると処理が簡略化されている」などの違いはあるが、ケタ違いの性能が出たことは確かだ。 また、分散処理システムの中には数ノード程度で性能が頭打ちになるものもあるが、Hadoopは10ノード以上でも性能が向上し、