本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1) Hadoopプラットフォーム上でのデータ操作をJavaより簡単にプログラムしたい 本日は「Pig」という言葉を解説します。PigはHadoopによる高速なビッグデータ処理をより簡単に利用する為の「Hadoop上で動作するソフトウェア」です。 以前の記事で「Hadoop(ハドゥープ)」とは、 巨大データの取り扱いを目的とした分散処理のフレームワークである 分散処理によってビッグデータを高速に処理することができる Hadoopの利用者は自作したデータ処理のプログラムや他者が開発したツールプログラムをHadoop内に組み込んでビッグデータ処理を行う と説明させていただきました。Hadoopの登場や広まりによってビッグデータ分析処理は劇的に効率化され、多くのデータ分析業務に携わる
2010年07月07日22:38 Hadoop 大規模なデータセットを効率的に扱うための Pig 超入門 Pig あるじゃないですか。Hadoop のラッパーで、DSL で書けるというアレです。 最近は Twitter や Yahoo! などで使われているらしき Pig。Hadoop を扱う場合、mapper と reducer をそれぞれ記述する必要がありますが、この Pig を使うと DSL を書くだけで内部的に処理を mapper, reducer として実行してくれます。その結果、記述量が減って開発時間が短縮できるというメリットがあります。アイコンがもう少し可愛ければ、、と思うと残念でなりません。なんだこのドヤ顔は・・ 今まで「良さそうだなー」と思いつつ触れていなかったのですが、今回触ってみる機会があったので軽くまとめておきます。※Pig を動かす環境については出来ている前提です。
Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理 作者: Jimmy Lin,Chris Dyer,神林飛志,野村直之,玉川竜司出版社/メーカー: オライリージャパン発売日: 2011/10/01メディア: 大型本購入: 4人 クリック: 254回この商品を含むブログ (16件) を見る はじめに 年末から使い続けているPigについて勉強した事をまとめていきます。主に以下のDocumentを参照しています。PigのDocumentでLatinを日本語で詳しく紹介しているものが見当たらなかったので、そういった目的でこの記事を参照されている方のお役に立てれば光栄です。 Getting Started Pig Latin Basics PigTutorial - Apache Pig - Apache Software Foundation
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く