Pigによるデータ処理 これからいよいよ、Pigを用いたデータ処理を“体感”していきます。Amazonのデータアーカイブを公開しているサイト(http://liu.cs.uic.edu/download/data/)には、いくつかのファイルがあります。今回は「reviewsNew.rar」(約1.7Gバイト)を任意のディレクトリにダウンロードし、解凍しましょう。 このファイルを含め、すべてのファイルのデータは英文です。データの各項目はタブ区切りになっています。各項目の詳細はこのディレクトリにある「README.txt」に書かれていて、後ほどこのファイルを参考にスキーマを定義します。 「解凍したデータファイルをHDFSにコピーし、Pigを起動し、データをロードする」という手順で進めていきます。まず図1のようにコマンドを実行します。カレントディレクトリに解凍したreviewsNew.txtが、
![[2]AmazonのレビューをPigで集計する](https://cdn-ak-scissors.b.st-hatena.com/image/square/bed39b5962a5d552c95b6d796db8f55e72d32943/height=288;version=1;width=512/https%3A%2F%2Fxtech.nikkei.com%2Fimages%2Fn%2Fxtech%2F2020%2Fogp_nikkeixtech_hexagon.jpg%3F20220512)