タグ

hadoopに関するFutaro99のブックマーク (3)

  • Hadoopを使いこなす(1)

    まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

    Hadoopを使いこなす(1)
  • Amazonクラウドが大規模分散処理の機能を強化。SQLライクな検索ができるHiveを搭載へ

    Amazon Web Services Blog: New Elastic MapReduce Goodies: Apache Hive, Karmasphere Studio for Hadoop, Cloudera's Hadoop Distribution クラウドのサービスを提供するAmazon Web Servicesは10月2日、新機能として「Apache Hive」をサポートするとブログで明らかにしました。 Hiveは、もともとFacebookが開発した、MapReduceによる大規模分散処理のオープンソースフレームワーク「Hadoop」と組み合わせて利用するフロントエンドアプリケーションです。Hive QLというSQLに似た言語でHadoop上のデータを操作できるため、柔軟でアドホックな問い合わせを簡単に実現できるようになり、Hadoopを基盤としたデータウェアハウス的な処

    Amazonクラウドが大規模分散処理の機能を強化。SQLライクな検索ができるHiveを搭載へ
  • blog.katsuma.tv

    前回、JavaScriptMap Reduceのコードが書けるHadoop Streamingについて紹介しました。 標準入出力さえサポートされてあれば、任意のコードでMap Reduuceの処理が書ける、というものでしたが、エンジニアはそもそも面倒くさがり。コードも書くのも面倒です。 と、いうわけで、今回はもうコードすら書かずにSQLライクでMap ReduceできるHiveというプロダクトについて、まとめたいと思います。 Hive Hiveとは、簡単に言うとHadoop上で動作するRDBのようなものです。 HDFSなどの分散ファイルシステム上に存在するデータに対して、HiveQLというSQLライクな言語で操作できます。 で、面白いのがHiveQLの操作は基的にMap Reduceのラッパーになっていること。 要するに、SELECT文実行すると裏でMap&Reduceのタスクが走り出

  • 1