「Hadoop」は、米Google社が考案した分散データ処理技術「MapReduce」をオープンソース・ソフトウエアで再実装したものです。Web系企業では、ユーザーのアクセスから得られる膨大なデータを解析するツールとして定着が進んでいます。最近ではWeb系以外の一般企業でもHadoopの活用が検討されてきています。 今回は、企業システムでHadoopを利用する意義と、ペタバイト・クラスのデータ処理を実現するHadoopの実装を解説します。 Google論文の衝撃 HadoopやMapReduceは「安価なサーバーで大量のデータを高速処理」「バッチの処理時間が劇的に短縮」などと紹介されています。とても高度な技術ととらえている方もいるかもしれませんが、実はそれほど複雑なものではありません。 MapReduceは、Googleが2004年に論文(http://labs.google.com/pa
![第14回 大規模データの新たな価値を生み出す「Hadoop」(解説編)](https://cdn-ak-scissors.b.st-hatena.com/image/square/bed39b5962a5d552c95b6d796db8f55e72d32943/height=288;version=1;width=512/https%3A%2F%2Fxtech.nikkei.com%2Fimages%2Fn%2Fxtech%2F2020%2Fogp_nikkeixtech_hexagon.jpg%3F20220512)