分散処理技術「Hadoop」とは Hadoopとは、大規模データの蓄積・分析を分散処理技術によって実現するオープンソースのミドルウェアです。 Apacheプロジェクトの元で、Hortonworks社、米国Yahoo!社、Cloudera社といった初期から参加していた企業に加えて、 Intel社、Microsoft社などより多くの企業のメンバーによって開発が続けられています。 Hadoop登場の背景 Hadoopは、Google社が論文として公開した、Google社内の以下の基盤技術をオープンソースとして実装したものを利用しています。 * GFS (Google File System : Google社の分散ファイルシステム) * Google MapReduce (Google社での分散処理技術) 検索サービスで扱うWebページの情報をGFSに保存して、検索用インデックスをGoogle