NTTデータが公開したHadoop資料が話題になっている。ざっと読む限り、コード事例もあって参考になることは確か。読まない手はないだろう。 だけど、Hadoop環境を自前で構築することには私はあまり賛同できない。技術屋が勉強するため、というのなら話は別だけど、事業でHadoopを使うのならクラウド上のを借りることをお勧めする。 例えば1000台のクラスタを構築して、デイリーバッチ処理が5分で終わるようになった! と喜ぶのも良いだろう。でも、残りの23時間55分はそのクラスタどうするのか?寝かせておくのであればROI評価は非常に低いものになるだろう。 かといってケチって5台のクラスタにしたらほぼ1日中稼動したのでROIは高くなりましたが処理時間短縮には至りませんでした、なんていうのも馬鹿げている。 じゃ、どこに最適点があるのか? 答は「自前で持たず、必要なときに必要な台数のクラスタを借りる」