はじめに DWHおよびETLで必要とされる大規模な処理がどういう背景と考え方で実現されているのか"超ざっくり"まとめます。 データ処理技術のトレンド まずはETL処理に関してです。DWHもそうですが、分散処理がキーワードとなります。 求められるBigdataへの対応 いわゆる3V(Variety,Velocity,Volume)で定義されることの多いBigdataの出現に伴い、それを分析処理するソフトウェアにはまず第一に「大量のデータに対する処理を現実的な時間内で終わらせること」が求められました。 分散処理フレームワークの台頭 大量のデータを効率的に処理させるための対応として、Hadoopと呼ばれるような処理技術が利用されるようになりました。 Hadoopは以下のような仕組みで大量データを効率的に処理することを実現しました。 「データを分割して多数のサーバーで処理」(Map) 「それぞれの