タグ

hiveに関するclicklogのブックマーク (2)

  • [2]AmazonのレビューをPigで集計する

    Pigによるデータ処理 これからいよいよ、Pigを用いたデータ処理を“体感”していきます。Amazonのデータアーカイブを公開しているサイト(http://liu.cs.uic.edu/download/data/)には、いくつかのファイルがあります。今回は「reviewsNew.rar」(約1.7Gバイト)を任意のディレクトリにダウンロードし、解凍しましょう。 このファイルを含め、すべてのファイルのデータは英文です。データの各項目はタブ区切りになっています。各項目の詳細はこのディレクトリにある「README.txt」に書かれていて、後ほどこのファイルを参考にスキーマを定義します。 「解凍したデータファイルをHDFSにコピーし、Pigを起動し、データをロードする」という手順で進めていきます。まず図1のようにコマンドを実行します。カレントディレクトリに解凍したreviewsNew.txtが、

    [2]AmazonのレビューをPigで集計する
    clicklog
    clicklog 2012/06/20
    日経Linux 2011年5月号 より
  • [1]簡単に分散処理を行えるPig

    OSSの分散処理フレームワーク「Hadoop MapReduce」は便利ですが、少しハードルが高い面もあります。MapReduceをより使いやすくするツールが「Pig」と「Hive」で、大容量データを簡単に処理したいケースで威力を発揮します。個人でも手軽にPigとHiveを“体感”する方法を解説します。(NTTコムウェア 研究開発部 川前 徳章) クラウドコンピューティング時代の代表的な分散処理技術「Hadoop」がいま、熱い注目を集めています。Hadoopは、米Google社が開発した大規模ファイルシステム「Google File System」、および大量のデータを高速に処理できる分散処理フレームワーク「MapReduce」を、Googleが発表した論文を基に実装したオープンソースソフトウエアです。Google File Systemに対応するのが「Hadoop Distributed

    [1]簡単に分散処理を行えるPig
    clicklog
    clicklog 2012/06/20
    日経Linux 2011年5月号 より
  • 1