[B! hive] clicklogのブックマーク

clicklog id:clicklog

hiveに関するclicklogのブックマーク (2)

［2］AmazonのレビューをPigで集計する
Pigによるデータ処理これからいよいよ、Pigを用いたデータ処理を“体感”していきます。Amazonのデータアーカイブを公開しているサイト（http://liu.cs.uic.edu/download/data/）には、いくつかのファイルがあります。今回は「reviewsNew.rar」（約1.7Gバイト）を任意のディレクトリにダウンロードし、解凍しましょう。このファイルを含め、すべてのファイルのデータは英文です。データの各項目はタブ区切りになっています。各項目の詳細はこのディレクトリにある「README.txt」に書かれていて、後ほどこのファイルを参考にスキーマを定義します。「解凍したデータファイルをHDFSにコピーし、Pigを起動し、データをロードする」という手順で進めていきます。まず図1のようにコマンドを実行します。カレントディレクトリに解凍したreviewsNew.txtが、
clicklog 2012/06/20
日経Linux 2011年5月号より

mapreduce

hive

pig

bigdata
リンク
［1］簡単に分散処理を行えるPig
OSSの分散処理フレームワーク「Hadoop MapReduce」は便利ですが、少しハードルが高い面もあります。MapReduceをより使いやすくするツールが「Pig」と「Hive」で、大容量データを簡単に処理したいケースで威力を発揮します。個人でも手軽にPigとHiveを“体感”する方法を解説します。（NTTコムウェア　研究開発部　川前徳章）クラウドコンピューティング時代の代表的な分散処理技術「Hadoop」がいま、熱い注目を集めています。Hadoopは、米Google社が開発した大規模ファイルシステム「Google File System」、および大量のデータを高速に処理できる分散処理フレームワーク「MapReduce」を、Googleが発表した論文を基に実装したオープンソースソフトウエアです。Google File Systemに対応するのが「Hadoop Distributed
clicklog 2012/06/20
日経Linux 2011年5月号より

ping

hive

mapreduce

bigdata
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx