[B! Pig] hohoho_ho2005のブックマーク

ビッグデータを支える技術 - Qiita

Hadoop 大規模な分散処理を支えるJavaフレームワーク HadoopはGoogleのMapReduce、GFS(Google File System)の技術をベースとして作られた HadoopではMapReduceはそのまま「MapReduce(Hadoop/MapReduce)」、GFSは「HDFS(Hadoop Distributed File System)」という名前でそれぞれ開発・公開されている MapReduce データを「Map処理」、「Reduce処理」の2つの処理で処理するモデル以下、Hadoop/MapReduceの機能複数のマシン上にデータとデータを処理するためのプログラムモジュールを配置し、プログラムを並列実行する複数マシン上で分散実行される処理の順序や優先度の制御障害時の自動リカバリ処理状況のステータス管理や監視機能処理全体のパフォーマンスを向上

hohoho_ho2005 2015/06/15

リンク

PigSpecを作った(Apache Pig用のためにRSpecを使う) - Qiita

PigSpec gem作った作った: https://github.com/shiracha/pigspec 動機: Pigのテストがめんどい MapReduceとして有名なHadoopのためのDSLとしてApache Pigがあります。 PigはDSLではありますがデータサイエンティスト諸兄は割りとややこしい事をする傾向があると思います。そうでなくとも集計をする場合にも、時間の扱いなんかあたりを中心にバグが入りがちです。そうするとテストを書きたいわけなんですが、PigのテストはPigUnitというものを使ってJavaのコードを書く必要があります。つまりせっかくDSLで軽い感じで解析やってるのにテストのほうがコードが重たいという良くわからん状態です。ということでRSpecでPigテスト出来るようにするgemを作ってみました。使い方 rspecとpigspecのgemを突っ込んで

hohoho_ho2005 2014/12/02

リンク

SQL, PigのCUBE - wyukawa's diary

SQLで小計や総合計を求める時にGROUP BYを利用することが多いと思いますがいろんな軸で集計したい場合にROLLUP, CUBE, GROUPING SETSを使うことができるようです。詳しくはこちら参照 http://homepage2.nifty.com/sak/w_sak3/doc/sysbrd/sq_kj04_4.htm ROLLUP, CUBE, GROUPING SETSを使うことができますと断定していないのは僕が試してないからです（汗なぜ試していないかというとこれらの機能を利用できるのがOracle, SQL Server, DB2だからです。Oracle XEをダウンロードしようかと思いましたけどユーザ登録に心が折れましたw　ちなみにMySQLではROLLUPのみサポートしているらしいです。今回は考えられる全ての組み合わせで集計するCUBEについて書いてみたいと思

hohoho_ho2005 2013/09/28

リンク

Hive/Pigを使ったKDD'12 track2の広告クリック率予測

1. Hive/Pigを使ったKDD'12 track2 の広告クリック率予測油井誠 m.yui@aist.go.jp 産業技術総合研究所情報技術研究部門 Twitter ID: @myui スライド http://www.slideshare.net/myui/dsirnlp-myuilt 1 http://goo.gl/Ulf3A 2. KDDcup 2012 track2 • 検索ログを基に、検索エンジンの広告のクリック率(Click-Through Rate)を推定するタスク – 中国の3大検索エンジンの一つsoso.comの実データ • 検索語などはHash値などを利用してすべて数値化されている – Trainingデータ(約10GB+2.2GB, 15億レコード） – Testデータ（約1.3GB, 2億レコード） • 学習データの1.33割が評価用データセット –

hohoho_ho2005 2013/09/28

リンク

Hadoop Pig の使いどころ - Tech-Sketch

「PigとHive何が違うの？」「Difference between Pig and Hive? Why have both?(PigとHive何が違うの？)」という質問を、先日、StackOverFlowで見かけました。恐らくHadoopを触ると一度は疑問に思う事ではではないでしょうか。 PigとHiveは、共にSQLライクな記法でMapReduceを書けるDSLですが、利用者数においてはHiveに軍配が上がっているようにみえます。一方で、「Pigをもっと早く試せば良かった」というお話を伺うこともあり、有用（かもしれない）ツールであれば、正しく理解しておいた方がよさそうです。というわけで、ここではPigの活用を探ります。 Pigの性能 Pigが今一つ利用されていないのは、SQLとの親和性に加え、性能面で、「Java MapReduce＞Hive＞Pig」という傾向があるからで

hohoho_ho2005 2013/09/28

リンク

SIOS　ビッグデータ技術ブログ: PigによるTreasureDataのデータ処理

こんにちは、髙橋です。暑い日が続いていますが、皆様はいかがお過ごしでしょうか。私は先日、『プログラミング Hive』『Hadoop 第3版』刊行記念 Hadoopセミナーに参加してきました。セミナーでは、Cloudera社の方や書籍翻訳者の玉川さんのお話を伺うことができ、充実した時間を過ごすことができました。また、セミナー最後のグッズプレゼントのじゃんけん大会では、景品になっていたHiveTシャツに心惹かれたのですが、残念ながら初戦敗退でした… Hadoopセミナーのように、ビッグデータに関連するセミナーや勉強会も盛んに行われていますので、夏休みのある方はビッグデータについて勉強する絶好の機会だと思います。さて、前ふりはこれくらいにして、今回のブログの内容は、Hiveの対抗馬であるPigについてです。 Pigとは？ Pigとは、Hiveと同様にMapReduceのラッパーであり

hohoho_ho2005 2013/08/01

リンク

1台でHBase, Hive, Pig, HUE(旧Cloudera Desktop)を試してみる(CentOS + Cloudera)

必要なもの・Linux(CentOS)+Cloudera版Hadoop環境CDH3(1台) → 構築方法はこちら・インターネット接続・Cloudera社のHBase,Hive,Pig,HUEのパッケージ(yumでインターネットからインストール) 作業手順以下の、1. HBase, 2. Pig, 3. Hive, 4. HUE(旧Cloudera Desktop)の手順は、独立して試すことができますし、一つの環境でまとめて試すこともできます。(それぞれデータの管理は別々です。) ここでは、Cloudera社のCDH3リポジトリが必要ですので、既に設定されていないか確認します。 ls /etc/yum.repos.d/ で、cloudera-cdh3.repoが存在すれば、OKのはずです。無い場合は、CDHのhadoopのインストール方法を確認してください。 1. HBase CDH

hohoho_ho2005 2013/07/24

リンク

Pigの情報源 - wyukawa's diary

とりあえずめもっとく ■本家 Welcome to Apache Pig! Ver 0.9.2からドキュメントの量が増えているのでこれを読めば事足りるかも。 ■書籍 Hadoop徹底入門作者: 太田一樹,下垣徹,山下真一,猿田浩輔,藤井達朗,濱野賢一朗出版社/メーカー: 翔泳社発売日: 2011/01/28メディア: 大型本購入: 14人クリック: 668回この商品を含むブログ (43件) を見る 11章に20ページほど書かれている。情報量としては少ないかな。 Hadoop 第2版作者: Tom White,玉川竜司,兼田聖士出版社/メーカー: オライリージャパン発売日: 2011/07/23メディア: 大型本購入: 9人クリック: 182回この商品を含むブログ (24件) を見る 11章に40ページほど書かれている。入門としてはいいかも。 Hadoop Hacks ―プロフェッシ

hohoho_ho2005 2013/07/06

pig
hadoop

リンク

Devsumi2013_15-c-7 アドテク・ターゲティング技術

アドテクの分野で様々なデータをどのような技術を用いて活用しているか、Hadoop,Pigでのデータ整形からMahoutでの分析、モデル作成、KVSの利用など、ターゲティング技術

hohoho_ho2005 2013/07/06

リンク

PigでHadoopをより便利に使う！PigでのMapReduceまとめ - Y's note

Hadoop Hacks ―プロフェッショナルが使う実践テクニック作者: 中野猛,山下真一,猿田浩輔,上新卓也,小林隆出版社/メーカー: オライリージャパン発売日: 2012/04/25メディア: 単行本（ソフトカバー）購入: 3人クリック: 156回この商品を含むブログ (8件) を見る Pig HadoopのMapReduceを独自で記述するのは手間が掛かります。それらの手間を出来るだけ緩和させるための便利なツールとしてDSL形式の処理フローを定義する事でMapReduceを実行するHiveやPIgというものが存在します。HiveとPigはライバルブロジェクトのようで、本日紹介するPigはYahoo!が開発しているミドルウェアになります。Hiveについては以前簡単に紹介をしたので以下のリンクを参考にしてください。PigLatinという手続き型の文法でDataのload/filter

hohoho_ho2005 2013/06/27

hadoop
pig

リンク

10分でHadoop-Pigの基本文法を理解する - Y's note

Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理作者: Jimmy Lin,Chris Dyer,神林飛志,野村直之,玉川竜司出版社/メーカー: オライリージャパン発売日: 2011/10/01メディア: 大型本購入: 4人クリック: 254回この商品を含むブログ (16件) を見るはじめに年末から使い続けているPigについて勉強した事をまとめていきます。主に以下のDocumentを参照しています。PigのDocumentでLatinを日本語で詳しく紹介しているものが見当たらなかったので、そういった目的でこの記事を参照されている方のお役に立てれば光栄です。 Getting Started Pig Latin Basics PigTutorial - Apache Pig - Apache Software Foundation

hohoho_ho2005 2013/06/27

Hadoop
pig

リンク

JavaでMapReduceを書くことが出来ない問題児がPigのデータ構造を調査しました - Y's note

Programming Pig 作者: Alan Gates出版社/メーカー: O'Reilly Media発売日: 2011/09/29メディア: Kindle版この商品を含むブログ (1件) を見る本当はJavaで書きたい。けどコンパイルや多段MapReduceは面倒なのでまずは僕の面倒くさがりな性格とプログラミング言語の話。10年前はJavaでWebアプリを書いていましたが、就職してScript言語をばりばり使っていた時期が長く続いたのでJavaから遠ざかってしまいました。もともとJavaのコンパイルが嫌いで、環境を整えたり直ぐに動作確認ができなかったり。スピードを求められる単純作業がその面倒な事によって時間が削られることを嫌っています。(自分でも良くないことだと思っていますので、今後は時間が有るときにJavaを書いてみます)Java MapReduceは柔軟であり速度的にも速いこ

hohoho_ho2005 2013/06/27

リンク

はてなブックマーク

タグ

関連タグで絞り込む (16)

Pigに関するhohoho_ho2005のブックマーク (12)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス