[B! Hive][pig] hohoho_ho2005のブックマーク

ビッグデータを支える技術 - Qiita

Hadoop 大規模な分散処理を支えるJavaフレームワーク HadoopはGoogleのMapReduce、GFS(Google File System)の技術をベースとして作られた HadoopではMapReduceはそのまま「MapReduce(Hadoop/MapReduce)」、GFSは「HDFS(Hadoop Distributed File System)」という名前でそれぞれ開発・公開されている MapReduce データを「Map処理」、「Reduce処理」の2つの処理で処理するモデル以下、Hadoop/MapReduceの機能複数のマシン上にデータとデータを処理するためのプログラムモジュールを配置し、プログラムを並列実行する複数マシン上で分散実行される処理の順序や優先度の制御障害時の自動リカバリ処理状況のステータス管理や監視機能処理全体のパフォーマンスを向上

hohoho_ho2005 2015/06/15

リンク

SQL, PigのCUBE - wyukawa's diary

SQLで小計や総合計を求める時にGROUP BYを利用することが多いと思いますがいろんな軸で集計したい場合にROLLUP, CUBE, GROUPING SETSを使うことができるようです。詳しくはこちら参照 http://homepage2.nifty.com/sak/w_sak3/doc/sysbrd/sq_kj04_4.htm ROLLUP, CUBE, GROUPING SETSを使うことができますと断定していないのは僕が試してないからです（汗なぜ試していないかというとこれらの機能を利用できるのがOracle, SQL Server, DB2だからです。Oracle XEをダウンロードしようかと思いましたけどユーザ登録に心が折れましたw　ちなみにMySQLではROLLUPのみサポートしているらしいです。今回は考えられる全ての組み合わせで集計するCUBEについて書いてみたいと思

hohoho_ho2005 2013/09/28

リンク

Hive/Pigを使ったKDD'12 track2の広告クリック率予測

1. Hive/Pigを使ったKDD'12 track2 の広告クリック率予測油井誠 m.yui@aist.go.jp 産業技術総合研究所情報技術研究部門 Twitter ID: @myui スライド http://www.slideshare.net/myui/dsirnlp-myuilt 1 http://goo.gl/Ulf3A 2. KDDcup 2012 track2 • 検索ログを基に、検索エンジンの広告のクリック率(Click-Through Rate)を推定するタスク – 中国の3大検索エンジンの一つsoso.comの実データ • 検索語などはHash値などを利用してすべて数値化されている – Trainingデータ(約10GB+2.2GB, 15億レコード） – Testデータ（約1.3GB, 2億レコード） • 学習データの1.33割が評価用データセット –

hohoho_ho2005 2013/09/28

リンク

Hadoop Pig の使いどころ - Tech-Sketch

「PigとHive何が違うの？」「Difference between Pig and Hive? Why have both?(PigとHive何が違うの？)」という質問を、先日、StackOverFlowで見かけました。恐らくHadoopを触ると一度は疑問に思う事ではではないでしょうか。 PigとHiveは、共にSQLライクな記法でMapReduceを書けるDSLですが、利用者数においてはHiveに軍配が上がっているようにみえます。一方で、「Pigをもっと早く試せば良かった」というお話を伺うこともあり、有用（かもしれない）ツールであれば、正しく理解しておいた方がよさそうです。というわけで、ここではPigの活用を探ります。 Pigの性能 Pigが今一つ利用されていないのは、SQLとの親和性に加え、性能面で、「Java MapReduce＞Hive＞Pig」という傾向があるからで

hohoho_ho2005 2013/09/28

リンク

1台でHBase, Hive, Pig, HUE(旧Cloudera Desktop)を試してみる(CentOS + Cloudera)

必要なもの・Linux(CentOS)+Cloudera版Hadoop環境CDH3(1台) → 構築方法はこちら・インターネット接続・Cloudera社のHBase,Hive,Pig,HUEのパッケージ(yumでインターネットからインストール) 作業手順以下の、1. HBase, 2. Pig, 3. Hive, 4. HUE(旧Cloudera Desktop)の手順は、独立して試すことができますし、一つの環境でまとめて試すこともできます。(それぞれデータの管理は別々です。) ここでは、Cloudera社のCDH3リポジトリが必要ですので、既に設定されていないか確認します。 ls /etc/yum.repos.d/ で、cloudera-cdh3.repoが存在すれば、OKのはずです。無い場合は、CDHのhadoopのインストール方法を確認してください。 1. HBase CDH

hohoho_ho2005 2013/07/24

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

Hiveとpigに関するhohoho_ho2005のブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス