タグ

pigに関するmanabouのブックマーク (3)

  • PigSpecを作った(Apache Pig用のためにRSpecを使う) - Qiita

    PigSpec gem作った 作った: https://github.com/shiracha/pigspec 動機: Pigのテストがめんどい MapReduceとして有名なHadoopのためのDSLとしてApache Pigがあります。 PigはDSLではありますがデータサイエンティスト諸兄は割りとややこしい事をする傾向があると思います。 そうでなくとも集計をする場合にも、時間の扱いなんかあたりを中心にバグが入りがちです。 そうするとテストを書きたいわけなんですが、PigのテストはPigUnitというものを使ってJavaのコードを書く必要があります。 つまりせっかくDSLで軽い感じで解析やってるのにテストのほうがコードが重たいという良くわからん状態です。 ということでRSpecでPigテスト出来るようにするgemを作ってみました。 使い方 rspecとpigspecのgemを突っ込んで

    PigSpecを作った(Apache Pig用のためにRSpecを使う) - Qiita
  • Hadoop Oozie設定からPigのPythonUDFを利用するまでのまとめ - Y's note

    Hadoop 第2版 作者: Tom White,玉川竜司,兼田聖士出版社/メーカー: オライリージャパン発売日: 2011/07/23メディア: 大型購入: 9人 クリック: 182回この商品を含むブログ (24件) を見る Oozie OozieとはHadoop MapReduceのジョブ管理システムの事でMapReduceの定期処理化や複数のMapReduceの実行し結果を一つにまとめるなど一連の処理フローとして定義することができる優れものです。Oozie自体はJava/Tomcatで作られているようです。Oozieを動かすために開発者は以下のものを用意しなければなりません。 ファイル 必須 記述方式 用途 設置場所 MapReduceプログラム 必須 Java,Streaming,Pig/Hive等 MapReduce実行 HDFS workflow 必須 xml OozieJo

    Hadoop Oozie設定からPigのPythonUDFを利用するまでのまとめ - Y's note
  • Apache Pig 0.8 リリース | gihyo.jp

    2010年12月17日、Hadoop上のデータを効率良く扱えるスクリプト言語「Pig」のバージョン0.8がリリースされました。Apache PigはHadoopと同じく米Yahoo!が中心となって開発しており、最初はHadoopのサブプロジェクトでしたが2010年9月にApacheトッププロジェクトに昇格しました。同様のアプローチを行うプロダクトとしてFacebookが開発しているHiveがあります。 今回のリリースでいろいろな機能が追加されました。まずPigにカスタムの関数追加が行えるUDFというユーザ定義関数の機能が、今回のバージョンからJavaでなくPythonで記述することが可能になりました。内部でJythonエンジンを呼び出しており、今までJavaで長いコードを書いてJAR(Java Archive)を作らなければならなかったのに対し、非常に記述量が減り気軽にUDFを作成できるよ

    Apache Pig 0.8 リリース | gihyo.jp
  • 1