タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

hiveとtutorialに関するshimookaのブックマーク (4)

  • 2014年版 Hadoopを10分で試す(4) まずはHiveから(中編)

    メタストアの役割 まず、Hadoopはデータベースではありません。HiveはHadoop(Hadoop分散ファイルシステム)にあるデータを処理するために、HiveQLにより開始されるMapReduceジョブをHadoopクラスタに投入(サブミット)するだけです。Hadoopクラスタからみれば、ワードカウントや円周率を計算するようなMapReduceジョブを実行することと、何の違いもありません。 このとき、MapReduceとして処理するために用いられるのがメタストアです。 昨日実行したクエリを例にしてみましょう。 SELECT * FROM sample_07 ORDER BY salary DESC; テーブルの名前は sample_07。ORDER BY salary としているので、少なくとも salary という列がありそうだことがわかります。 先ほど書いたように、Hiveで処理す

    2014年版 Hadoopを10分で試す(4) まずはHiveから(中編)
  • blog.katsuma.tv

    前回、JavaScriptMap Reduceのコードが書けるHadoop Streamingについて紹介しました。 標準入出力さえサポートされてあれば、任意のコードでMap Reduuceの処理が書ける、というものでしたが、エンジニアはそもそも面倒くさがり。コードも書くのも面倒です。 と、いうわけで、今回はもうコードすら書かずにSQLライクでMap ReduceできるHiveというプロダクトについて、まとめたいと思います。 Hive Hiveとは、簡単に言うとHadoop上で動作するRDBのようなものです。 HDFSなどの分散ファイルシステム上に存在するデータに対して、HiveQLというSQLライクな言語で操作できます。 で、面白いのがHiveQLの操作は基的にMap Reduceのラッパーになっていること。 要するに、SELECT文実行すると裏でMap&Reduceのタスクが走り出

  • SQLライクにHadoop Hiveを使い倒す!

    パーティションを利用する 今回は少し凝ったテーブルを定義をしてみましょう。 郵便番号データは毎月更新されるので、テーブル指定時にバージョンも指定できるようにします。このような場合、Hiveではパーティションを使います。 以下に郵便番号を保存するテーブル「zip」を定義しますが、日付型DATEのパーティションverを設定するようにします。 hive> CREATE TABLE zip (zip STRING, pref INT, city STRING, town STRING) > PARTITIONED BY (ver DATE) > ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' > LINES TERMINATED BY '\n'; OK Time taken: 0.128 seconds

    SQLライクにHadoop Hiveを使い倒す!
  • Hadoop+Hive検証環境を構築してみる

    Hadoop+Hive検証環境を構築してみる:Hive――RDB使いのためのHadoopガイド(前編)(1/3 ページ) Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。稿ではこのHiveの使い方とレビューを行っていきます。

    Hadoop+Hive検証環境を構築してみる
  • 1