タグ

Hadoopに関するsakadonohitoのブックマーク (4)

  • 第5回 受注データの集計バッチを書いてみよう

    第5回では、AsakusaのDSLで記述したサンプルプログラムを紹介する。プログラムの内容は、受注データを商品マスターを使ってチェックし、問題がなければ注文ごとに集計するというシンプルなものだ。 このサンプルプログラムは、オープンソースソフトウエア(OSS)の一部として配布している。OSSの配布を昨日開始したので、実物を試しながら読んでもらえれば理解が深まるだろう(URLはこちら)。 Asakusaには3種類のDSLがある。3層からなるマルチティアのDSLで、三つを総称してAsakusa DSLと呼ぶ。まず、それらをおさらいしよう。 (1)Batch DSL Batch DSLは、業務部門のユーザーから見たときの、いわゆる「バッチ」という単位を構成する最上位のDSLである。下位のFlow DSLで作成するジョブフローをつなぎ合わせて、一連のバッチ処理にすることが目的である。 バッチは、ユー

    第5回 受注データの集計バッチを書いてみよう
  • Hadoop MapReduceプログラムを解剖する

    オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します(その他には、Pig、Hive、JAQLといったものがあります)。しかし、意外と初心者には分かりにくいと筆者は感じます。記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト体からでさえも、新APIを使ったサンプルが提示されていません。記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

  • IBM版Hadoopでクラスターを簡単セットアップ

    はじめに IBM版Apache Hadoop(英語名:IBM Distribution of Apache Hadoop / 通称:IDAHO)とは、IBMのJava VMで動く、インストーラー付きApache Hadoopです。先進テクノロジー・ソフトウェアの無償ダウンロードサイト「IBM alphaWorks」で公開されています。 記事執筆時点では、32-bit Linux version of the IBM SDK for Java 6 SR 8で稼働します。また、IDAHO-1.0では、Apache Hadoop version 0.20.2をベースにしています。 IDAHOには、Web-UIによるインストーラーがついています。SSH設定、Javaランタイム、Hadoopなどの設定を自動的に行いますので、Hadoopクラスターのセットアップが簡単に行えます。また、一回の作業で複

    IBM版Hadoopでクラスターを簡単セットアップ
  • Hadoopシステム構築のノウハウ

    前回までの記事では、Hadoopがどのような背景で登場したのか、どのような能力を持っているのか、リレーショナル・データベース管理システム(RDBMS)やKey-Value Store(KVS)型データベースとはどのように異なるのかを解説してきました。 今回は、Hadoopを実際にエンタープライズ(企業情報システム構築)用途に活用するにあたって、押さえておきたいポイントを解説します。 Hadoop活用の課題 Hadoopは、オープンソースとして開発されています。2006年にDoug Cutting氏によってHadoopプロジェクトが立ち上げられて以来、ほぼ4年が経過し、現在ではApache Software財団が支援するトップ・レベル・プロジェクトとして多数の開発者が参加しています。 プロジェクトが立ち上がった当時、Hadoopはわずか20ノードのクラスタで動作していました。現在では、米Ya

  • 1