こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。 今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式:MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。 ビッグデータ活用の市場が日々大きくなるに従って、数百テラ~ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要
![分散処理に入門してみた(Hadoop + Spark) | Casley Deep Innovations株式会社 技術ブログ](https://cdn-ak-scissors.b.st-hatena.com/image/square/43452d1087148813b3b4aae3432d3bff7705163a/height=288;version=1;width=512/https%3A%2F%2Fwww.casleydi.com%2Fwordpress%2Fwp-content%2Fuploads%2F2014%2F10%2Fimage4-300x274.png)