タグ

ブックマーク / open-groove.net (5)

  • HueからImpalaクエリ実行 – OpenGroove

    Hadoop エコシステムのWeb UI である Hueを導入して、Impalaのクエリを実行してみた。 HueではHive, Pigの操作も可能。 実行環境はこれ一台。 Hive + Impala + HBase (Amazon EC2 m1.largeマシン、Hadoop疑似分散モード、CDH4.3) 手順はO’REILLYの「プログラミングHive」を参照した。 では、Hue インストール。結構依存関係のツールが沢山入る。 # yum install hue hue-server -y 現状は version 2.3が入る。ちなみにソースからDLできる最新の2.5では、HBaseの操作もサポートしている(HBaseの操作はさすがにそこまでカジュアルにやらなくてもいいのでは、という気もしているが…)。 Hueの実行に必要なhadoop-httpfsインストール。 # yum insta

    shiumachi
    shiumachi 2013/08/01
  • ImpalaでJSONデータを扱えるのかどうか – OpenGroove

    前回までの投稿でfluentdからHBaseに送り込んだnginxのログデータにクエリをかけてみる、なんてのをやったが、HDFSに直に置いたJSONデータをHiveやImpalaでどう処理するか、という話。結論から言うと、Hiveに関しては以前の投稿で書いたようにjson_tupleやJSON SerDeが使えるので問題ない。 ちなみに、ログデータに含まれる日付とタグは使わないので、HDFS上のログを一旦ローカルに落としてJSONデータのみ抜き出し、さらに複数のファイルを結合してひとつにまとめ…、などと相当泥臭いことをやった。こういうことならHDFSに直接ログを送る必要もないんじゃないかと思うが、もっとスマートなやり方があるんだろうか??? デキる人はプラグイン自分で改造したり、チャチャっとうまくやってるんだろうな。それはともかく、データの中身はこんな感じ。 {"host":"127.0.

    shiumachi
    shiumachi 2013/08/01
  • fluentdでHBaseに送り込んだログをImpala or Hiveで集計 – OpenGroove

    fluentdでnginxのログをHBaseとHDFSに送り込み、それぞれHive or Impalaで遊んで集計かけてみた。 実行環境は以下2台。 nginx + td-agent (Amazon EC2 t1.micro、CentOS) Hive + Impala + HBase (Amazon EC2 m1.large、CentOS、CDH4.3のHadoop疑似分散モード) ログを送り込むための設定は以下のようにした。テーブルマッピングは実際のHBaseテーブルに沿って記述する。一応ローカルマシンにも書き込む設定にした。 /etc/td-agent/td-agent.conf <source> type tail format apache path /var/log/nginx/access.log pos_file /var/log/td-agent/nginx.pos tag

    shiumachi
    shiumachi 2013/08/01
    "fluentdでnginxのログをHBaseとHDFSに送り込み、それぞれHive or Impalaで集計かけてみた"
  • 少しだけImpala演習 – OpenGroove

    Impalaを、軽ーくさわってみた記録。せっかくなのでHiveとも比較してみた。実行環境はAWSのm1.largeインスタンスに構築したHadoop疑似分散モード。セットアップ方法は前回投稿に記載。 サンプルデータをダウンロードする。マシンの適当な場所で以下実行。このリンクいつまであるかわからないけど、以前のHive演習用に使ったサンプルです。 $ wget http://image.gihyo.co.jp/assets/files/book/2012/978-4-7741-5389-6/download/sample.zip $ unzip sample.zip この中のtsvファイルを、HDFSにputする。これは相対パス指定。 $ hadoop fs -put /tmp/sales.tsv test/ Impala shellを起動して、テーブルを作成する。 元データはファイル名では

    shiumachi
    shiumachi 2013/08/01
    Hiveとの比較。"フツーに20倍以上の開きがある"
  • Impalaセットアップ – OpenGroove

    数ヶ月前にImpalaで遊んでみようとしたときは、Cloudera Managerから入れるのは簡単だけど個別に入れるのは面倒くさそうだったのでスルーしてしまったが、先日購入したO’REILLY の「プログラミングHive」にセットアップ方法が記載されていたのでやってみた。でも書籍の方はレポジトリURLの情報が古かったり、しましたね。設定ファイルの内容も若干変わっている様子。 環境はAWSのLargeインスタンス、CDH4.3のHadoop疑似分散モード。いつもはSmallマシンをケチケチいじっているのだが、Impalaはリソースをかなり喰うと聞いているので、Smallじゃ無理だろう、と。もともと使っているHadoop疑似分散モードのマシンからAMIを取得して、Largeで起動。HBase, Hiveのセットアップも済んでいるから、楽チン(ImpalaはHiveと共通のメタストアを使用する

    shiumachi
    shiumachi 2013/08/01
    Cloudera ManagerなしでImpalaをインストールする
  • 1