[B! hadoop][CodeZine] wasaiのブックマーク

wasai id:wasai

hadoopとCodeZineに関するwasaiのブックマーク (3)

Elastic MapReduceとHiveの概要と利用準備
必要な環境 Windows、Macなどインターネットが利用可能なOS環境クラウドでHadoopを使うメリット昨今ビッグデータ格納の基盤としてHadoopを使う事例が増えてきています。大規模なストレージを必要とせずにビッグデータを扱える環境は非常に魅力的です。 HadoopはGoogleの検索エンジンの基盤として開発されたGoogle File SystemおよびMapReduceの技術仕様を元に開発されたオープンソースソフトウェアです。ファイルを複数のサーバに冗長化した上で分散配置するHDFS（Hadoop Distributed File System）と、分散配置されている大量データから必要なデータの抽出や分解を行うHadoop MapReduceにより構成されています。現在、Hadoopはクレジットカード会社の売上データの解析や、国立国会図書館が提供している検索サービスのインデ
wasai 2012/05/19
CodeZine

Hadoop

MapReduce

Hive
リンク
Starfish: Hadoopでの自己調節データ解析
講義の内容は「MADDER、およびStarfishによるHadoopでの自己調節データ解析（MADDER and Self-tuning data analytics on Hadoop with Starfish）（PDF）」というものです。一言で言えば、Starfishプロジェクトが目指しているのは、Hadoopシステム用の自己調節および自己管理技術を開発することであり、SQL Anywhereをはじめとする自己管理型リレーショナルデータベースシステムが抱える課題の多くは、Hadoopシステムの課題と対応しています。 Starfishの論文とソースコードはApacheラインセンスの下で公開されており、こちらで見ることができます。次に、Shivnathの講義中に私が書き留めたメモを示します（スライド（PDF）はこちらで見ることができます）。大規模データ解析は、多くの場合、Google
wasai 2011/09/01
あとで読んでおく

Hadoop

CodeZine

あとで読む
リンク
Hadoop MapReduceプログラムを解剖する
オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します（その他には、Pig、Hive、JAQLといったものがあります）。しかし、意外と初心者には分かりにくいと筆者は感じます。本記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト本体からでさえも、新APIを使ったサンプルが提示されていません。本記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。
wasai 2010/12/02
あとで読む

CodeZine

Hadoop

MapReduce

あとで読む
リンク
1