タグ

pigに関するatm_09_tdのブックマーク (2)

  • [1]簡単に分散処理を行えるPig

    OSSの分散処理フレームワーク「Hadoop MapReduce」は便利ですが、少しハードルが高い面もあります。MapReduceをより使いやすくするツールが「Pig」と「Hive」で、大容量データを簡単に処理したいケースで威力を発揮します。個人でも手軽にPigとHiveを“体感”する方法を解説します。(NTTコムウェア 研究開発部 川前 徳章) クラウドコンピューティング時代の代表的な分散処理技術「Hadoop」がいま、熱い注目を集めています。Hadoopは、米Google社が開発した大規模ファイルシステム「Google File System」、および大量のデータを高速に処理できる分散処理フレームワーク「MapReduce」を、Googleが発表した論文を基に実装したオープンソースソフトウエアです。Google File Systemに対応するのが「Hadoop Distributed

    [1]簡単に分散処理を行えるPig
  • 大規模なデータセットを効率的に扱うための Pig 超入門 - (゚∀゚)o彡 sasata299's blog

    2010年07月07日22:38 Hadoop 大規模なデータセットを効率的に扱うための Pig 超入門 Pig あるじゃないですか。Hadoop のラッパーで、DSL で書けるというアレです。 最近は TwitterYahoo! などで使われているらしき Pig。Hadoop を扱う場合、mapper と reducer をそれぞれ記述する必要がありますが、この Pig を使うと DSL を書くだけで内部的に処理を mapper, reducer として実行してくれます。その結果、記述量が減って開発時間が短縮できるというメリットがあります。アイコンがもう少し可愛ければ、、と思うと残念でなりません。なんだこのドヤ顔は・・ 今まで「良さそうだなー」と思いつつ触れていなかったのですが、今回触ってみる機会があったので軽くまとめておきます。※Pig を動かす環境については出来ている前提です。

  • 1