タグ

Pigに関するhohoho_ho2005のブックマーク (12)

  • ビッグデータを支える技術 - Qiita

    Hadoop 大規模な分散処理を支えるJavaフレームワーク HadoopはGoogleMapReduce、GFS(Google File System)の技術をベースとして作られた HadoopではMapReduceはそのまま「MapReduce(Hadoop/MapReduce)」、GFSは「HDFS(Hadoop Distributed File System)」という名前でそれぞれ開発・公開されている MapReduce データを「Map処理」、「Reduce処理」の2つの処理で処理するモデル 以下、Hadoop/MapReduceの機能 複数のマシン上にデータとデータを処理するためのプログラムモジュールを配置し、プログラムを並列実行する 複数マシン上で分散実行される処理の順序や優先度の制御 障害時の自動リカバリ 処理状況のステータス管理や監視機能 処理全体のパフォーマンスを向上

    ビッグデータを支える技術 - Qiita
  • PigSpecを作った(Apache Pig用のためにRSpecを使う) - Qiita

    PigSpec gem作った 作った: https://github.com/shiracha/pigspec 動機: Pigのテストがめんどい MapReduceとして有名なHadoopのためのDSLとしてApache Pigがあります。 PigはDSLではありますがデータサイエンティスト諸兄は割りとややこしい事をする傾向があると思います。 そうでなくとも集計をする場合にも、時間の扱いなんかあたりを中心にバグが入りがちです。 そうするとテストを書きたいわけなんですが、PigのテストはPigUnitというものを使ってJavaのコードを書く必要があります。 つまりせっかくDSLで軽い感じで解析やってるのにテストのほうがコードが重たいという良くわからん状態です。 ということでRSpecでPigテスト出来るようにするgemを作ってみました。 使い方 rspecとpigspecのgemを突っ込んで

    PigSpecを作った(Apache Pig用のためにRSpecを使う) - Qiita
  • SQL, PigのCUBE - wyukawa's diary

    SQLで小計や総合計を求める時にGROUP BYを利用することが多いと思いますがいろんな軸で集計したい場合にROLLUP, CUBE, GROUPING SETSを使うことができるようです。 詳しくはこちら参照 http://homepage2.nifty.com/sak/w_sak3/doc/sysbrd/sq_kj04_4.htm ROLLUP, CUBE, GROUPING SETSを使うことができますと断定していないのは僕が試してないからです(汗 なぜ試していないかというとこれらの機能を利用できるのがOracle, SQL Server, DB2だからです。Oracle XEをダウンロードしようかと思いましたけどユーザ登録に心が折れましたw ちなみにMySQLではROLLUPのみサポートしているらしいです。 今回は考えられる全ての組み合わせで集計するCUBEについて書いてみたいと思

    SQL, PigのCUBE - wyukawa's diary
  • Hive/Pigを使ったKDD'12 track2の広告クリック率予測

    1. Hive/Pigを使ったKDD'12 track2 の広告クリック率予測 油井 誠 m.yui@aist.go.jp 産業技術総合研究所 情報技術研究部門 Twitter ID: @myui スライド http://www.slideshare.net/myui/dsirnlp-myuilt 1 http://goo.gl/Ulf3A 2. KDDcup 2012 track2 • 検索ログを基に、検索エンジンの広告のクリック 率(Click-Through Rate)を推定するタスク – 中国の3大検索エンジンの一つsoso.comの実データ • 検索語などはHash値などを利用してすべて数値化されてい る – Trainingデータ(約10GB+2.2GB, 15億レコード) – Testデータ(約1.3GB, 2億レコード) • 学習データの1.33割が評価用データセット –

    Hive/Pigを使ったKDD'12 track2の広告クリック率予測
  • Hadoop Pig の使いどころ - Tech-Sketch

    「PigとHive何が違うの?」 「Difference between Pig and Hive? Why have both?(PigとHive何が違うの?)」 という質問を、先日、StackOverFlowで見かけました。恐らくHadoopを触ると一度は疑問に思う事ではではないでしょうか。 PigとHiveは、共にSQLライクな記法でMapReduceを書けるDSLですが、利用者数においてはHiveに軍配が上がっているようにみえます。 一方で、「Pigをもっと早く試せば良かった」というお話を伺うこともあり、有用(かもしれない)ツールであれば、正しく理解しておいた方がよさそうです。 というわけで、ここではPigの活用を探ります。 Pigの性能 Pigが今一つ利用されていないのは、SQLとの親和性に加え、性能面で、「JavaMapReduce>Hive>Pig」という傾向があるからで

  • SIOS ビッグデータ技術ブログ: PigによるTreasureDataのデータ処理

    こんにちは、髙橋です。 暑い日が続いていますが、皆様はいかがお過ごしでしょうか。 私は先日、『プログラミング Hive』 『Hadoop 第3版』刊行記念 Hadoopセミナーに参加してきました。 セミナーでは、Cloudera社の方や書籍翻訳者の玉川さんのお話を伺うことができ、充実した時間を過ごすことができました。 また、セミナー最後のグッズプレゼントのじゃんけん大会では、景品になっていたHiveTシャツに心惹かれたのですが、残念ながら初戦敗退でした… Hadoopセミナーのように、ビッグデータに関連するセミナーや勉強会も盛んに行われていますので、夏休みのある方はビッグデータについて勉強する絶好の機会だと思います。 さて、前ふりはこれくらいにして、今回のブログの内容は、Hiveの対抗馬であるPigについてです。 Pigとは? Pigとは、Hiveと同様にMapReduceのラッパーであり

    SIOS ビッグデータ技術ブログ: PigによるTreasureDataのデータ処理
  • 1台でHBase, Hive, Pig, HUE(旧Cloudera Desktop)を試してみる(CentOS + Cloudera)

    必要なもの ・Linux(CentOS)+Cloudera版Hadoop環境CDH3(1台) → 構築方法はこちら ・インターネット接続 ・Cloudera社のHBase,Hive,Pig,HUEのパッケージ(yumでインターネットからインストール) 作業手順 以下の、1. HBase, 2. Pig, 3. Hive, 4. HUE(旧Cloudera Desktop)の手順は、独立して試すことができますし、一つの環境でまとめて試すこともできます。(それぞれデータの管理は別々です。) ここでは、Cloudera社のCDH3リポジトリが必要ですので、既に設定されていないか確認します。 ls /etc/yum.repos.d/ で、cloudera-cdh3.repoが存在すれば、OKのはずです。無い場合は、CDHのhadoopのインストール方法を確認してください。 1. HBase CDH

    1台でHBase, Hive, Pig, HUE(旧Cloudera Desktop)を試してみる(CentOS + Cloudera)
  • Pigの情報源 - wyukawa's diary

    とりあえずめもっとく ■家 Welcome to Apache Pig! Ver 0.9.2からドキュメントの量が増えているのでこれを読めば事足りるかも。 ■書籍 Hadoop徹底入門 作者: 太田一樹,下垣徹,山下真一,猿田浩輔,藤井達朗,濱野賢一朗出版社/メーカー: 翔泳社発売日: 2011/01/28メディア: 大型購入: 14人 クリック: 668回この商品を含むブログ (43件) を見る 11章に20ページほど書かれている。情報量としては少ないかな。 Hadoop 第2版 作者: Tom White,玉川竜司,兼田聖士出版社/メーカー: オライリージャパン発売日: 2011/07/23メディア: 大型購入: 9人 クリック: 182回この商品を含むブログ (24件) を見る 11章に40ページほど書かれている。入門としてはいいかも。 Hadoop Hacks ―プロフェッシ

    Pigの情報源 - wyukawa's diary
  • Devsumi2013_15-c-7 アドテク・ターゲティング技術

    アドテクの分野で様々なデータをどのような技術を用いて活用しているか、Hadoop,Pigでのデータ整形からMahoutでの分析、モデル作成、KVSの利用など、ターゲティング技術

    Devsumi2013_15-c-7 アドテク・ターゲティング技術
  • PigでHadoopをより便利に使う!PigでのMapReduceまとめ - Y's note

    Hadoop Hacks ―プロフェッショナルが使う実践テクニック 作者: 中野猛,山下真一,猿田浩輔,上新卓也,小林隆出版社/メーカー: オライリージャパン発売日: 2012/04/25メディア: 単行(ソフトカバー)購入: 3人 クリック: 156回この商品を含むブログ (8件) を見る Pig HadoopのMapReduceを独自で記述するのは手間が掛かります。それらの手間を出来るだけ緩和させるための便利なツールとしてDSL形式の処理フローを定義する事でMapReduceを実行するHiveやPIgというものが存在します。HiveとPigはライバルブロジェクトのようで、日紹介するPigはYahoo!が開発しているミドルウェアになります。Hiveについては以前簡単に紹介をしたので以下のリンクを参考にしてください。PigLatinという手続き型の文法でDataのload/filter

    PigでHadoopをより便利に使う!PigでのMapReduceまとめ - Y's note
  • 10分でHadoop-Pigの基本文法を理解する - Y's note

    Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理 作者: Jimmy Lin,Chris Dyer,神林飛志,野村直之,玉川竜司出版社/メーカー: オライリージャパン発売日: 2011/10/01メディア: 大型購入: 4人 クリック: 254回この商品を含むブログ (16件) を見る はじめに 年末から使い続けているPigについて勉強した事をまとめていきます。主に以下のDocumentを参照しています。PigのDocumentでLatinを日語で詳しく紹介しているものが見当たらなかったので、そういった目的でこの記事を参照されている方のお役に立てれば光栄です。 Getting Started Pig Latin Basics PigTutorial - Apache Pig - Apache Software Foundation

    10分でHadoop-Pigの基本文法を理解する - Y's note
  • JavaでMapReduceを書くことが出来ない問題児がPigのデータ構造を調査しました - Y's note

    Programming Pig 作者: Alan Gates出版社/メーカー: O'Reilly Media発売日: 2011/09/29メディア: Kindle版この商品を含むブログ (1件) を見る 当はJavaで書きたい。けどコンパイルや多段MapReduceは面倒なので まずは僕の面倒くさがりな性格とプログラミング言語の話。10年前はJavaでWebアプリを書いていましたが、就職してScript言語をばりばり使っていた時期が長く続いたのでJavaから遠ざかってしまいました。もともとJavaのコンパイルが嫌いで、環境を整えたり直ぐに動作確認ができなかったり。スピードを求められる単純作業がその面倒な事によって時間が削られることを嫌っています。(自分でも良くないことだと思っていますので、今後は時間が有るときにJavaを書いてみます)JavaMapReduceは柔軟であり速度的にも速いこ

    JavaでMapReduceを書くことが出来ない問題児がPigのデータ構造を調査しました - Y's note
  • 1