タグ

hadoopとCodeZineに関するwasaiのブックマーク (3)

  • Elastic MapReduceとHiveの概要と利用準備

    必要な環境 WindowsMacなどインターネットが利用可能なOS環境 クラウドでHadoopを使うメリット 昨今ビッグデータ格納の基盤としてHadoopを使う事例が増えてきています。大規模なストレージを必要とせずにビッグデータを扱える環境は非常に魅力的です。 HadoopはGoogleの検索エンジンの基盤として開発されたGoogle File SystemおよびMapReduceの技術仕様を元に開発されたオープンソースソフトウェアです。ファイルを複数のサーバに冗長化した上で分散配置するHDFS(Hadoop Distributed File System)と、分散配置されている大量データから必要なデータの抽出や分解を行うHadoop MapReduceにより構成されています。 現在、Hadoopはクレジットカード会社の売上データの解析や、国立国会図書館が提供している検索サービスのインデ

    Elastic MapReduceとHiveの概要と利用準備
  • Starfish: Hadoopでの自己調節データ解析

    講義の内容は「MADDER、およびStarfishによるHadoopでの自己調節データ解析(MADDER and Self-tuning data analytics on Hadoop with Starfish)(PDF)」というものです。一言で言えば、Starfishプロジェクトが目指しているのは、Hadoopシステム用の自己調節および自己管理技術を開発することであり、SQL Anywhereをはじめとする自己管理型リレーショナルデータベースシステムが抱える課題の多くは、Hadoopシステムの課題と対応しています。 Starfishの論文とソースコードはApacheラインセンスの下で公開されており、こちらで見ることができます。 次に、Shivnathの講義中に私が書き留めたメモを示します(スライド(PDF)はこちらで見ることができます)。 大規模データ解析は、多くの場合、Google

    Starfish: Hadoopでの自己調節データ解析
    wasai
    wasai 2011/09/01
    あとで読んでおく
  • Hadoop MapReduceプログラムを解剖する

    オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します(その他には、Pig、Hive、JAQLといったものがあります)。しかし、意外と初心者には分かりにくいと筆者は感じます。記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト体からでさえも、新APIを使ったサンプルが提示されていません。記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

  • 1