タグ

hadoopとJavaに関するwasaiのブックマーク (3)

  • Hadoop Streamingメモ(Hishidama's Hadoop Streaming Memo)

    Streamingの概要 Hadoopストリーミングは、Java以外の言語のMapper・Reducerプログラムを実行する方法。 データは標準入出力を介して受け渡す。 つまり、標準入力からデータ(テキスト)を受け取り、標準出力にデータを出力することでHadoop側とやりとりする。 したがって、標準入出力が扱える言語なら何でも使用できる。 Streamingの実行方法 Hadooopストリーミングでは、Streaming用のJavaプログラムにMapper・Reducerプログラムを指定する形で実行する。 CDH3の場合、以下のように指定する。 hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar \ -mapper Mapperプログラムのファイル名 \ -combiner Combine

  • Hadoopはルイーダの酒場 - wyukawa's diary

    昨日の深夜に某氏講師による「JavaエンジニアのためのHadoop入門」 の話題がネタになってましたが、僕はJavaエンジニアとしてキャリアを積んできてHadoopに入門しました。キリ HadoopはJavaで書かれているのでJavaエンジニアのキャリアのひとつとしていいと思いますけどね。 当初はHiveでデータ処理をしていましたがうまくHiveQLが書けず、DBエンジニアからHadooperになった人にSQLやデータモデルについて教えてもらったりしてました。 最近はインフラまわりをやるようになって、HeartBeatわかんねーーーーってなって、インフラエンジニアからHadooperになった人にいろいろ教えてもらったりしてました。 かようにHadoopを使う場合はいろいろなスキルが求められます。 まずインフラ構築、運用ならざっと下記のような作業が必要になるでしょう。 ハードウェア選定 ハー

    Hadoopはルイーダの酒場 - wyukawa's diary
  • リアルタイムなHadoop? 「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開 - Publickey

    Yahoo!は、大規模データの分散処理を実現するMapReduceをリアルタイムに行うソフトウェア「S4」を、オープンソースとして公開しました。 MapReduceを実行するソフトウェアとして、オープンソースの「Hadoop」がありますが、Hadoopはあらかじめジョブを定義して投入するバッチ処理を前提としていました。 S4は、データをキーとバリューのペアで構成されるストリームデータとして非同期に受け取ることができ、処理結果もキーバリューのペアで構成されたストリームデータとして出力するようになっているとのこと。 この非同期なストリームデータによる入出力が、リアルタイムなMapReduceを実現するフレームワークとしてのS4の特徴といえます。 リアルタイムなMapReduceで何ができる? リアルタイムなMapReduceにはどのような用途が考えられるのでしょうか? S4の公開を表明したY

    リアルタイムなHadoop? 「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開 - Publickey
  • 1