[B! hive][tutorial] shimookaのブックマーク

shimooka id:shimooka

hiveとtutorialに関するshimookaのブックマーク (4)

2014年版 Hadoopを10分で試す(4) まずはHiveから（中編）
メタストアの役割まず、Hadoopはデータベースではありません。HiveはHadoop（Hadoop分散ファイルシステム）にあるデータを処理するために、HiveQLにより開始されるMapReduceジョブをHadoopクラスタに投入（サブミット）するだけです。Hadoopクラスタからみれば、ワードカウントや円周率を計算するようなMapReduceジョブを実行することと、何の違いもありません。このとき、MapReduceとして処理するために用いられるのがメタストアです。昨日実行したクエリを例にしてみましょう。 SELECT * FROM sample_07 ORDER BY salary DESC; テーブルの名前は sample_07。ORDER BY salary としているので、少なくとも salary という列がありそうだことがわかります。先ほど書いたように、Hiveで処理す
shimooka 2015/02/17
hive

tutorial

cdh
リンク
blog.katsuma.tv
前回、JavaScriptでMap Reduceのコードが書けるHadoop Streamingについて紹介しました。標準入出力さえサポートされてあれば、任意のコードでMap Reduuceの処理が書ける、というものでしたが、エンジニアはそもそも面倒くさがり。コードも書くのも面倒です。と、いうわけで、今回はもうコードすら書かずにSQLライクでMap ReduceできるHiveというプロダクトについて、まとめたいと思います。 Hive Hiveとは、簡単に言うとHadoop上で動作するRDBのようなものです。 HDFSなどの分散ファイルシステム上に存在するデータに対して、HiveQLというSQLライクな言語で操作できます。で、面白いのがHiveQLの操作は基本的にMap Reduceのラッパーになっていること。要するに、SELECT文実行すると裏でMap&Reduceのタスクが走り出
shimooka 2010/09/17
hadoop

hive

tutorial
リンク
SQLライクにHadoop Hiveを使い倒す!
パーティションを利用する今回は少し凝ったテーブルを定義をしてみましょう。郵便番号データは毎月更新されるので、テーブル指定時にバージョンも指定できるようにします。このような場合、Hiveではパーティションを使います。以下に郵便番号を保存するテーブル「zip」を定義しますが、日付型DATEのパーティションverを設定するようにします。 hive> CREATE TABLE zip (zip STRING, pref INT, city STRING, town STRING) > PARTITIONED BY (ver DATE) > ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' > LINES TERMINATED BY '\n'; OK Time taken: 0.128 seconds
shimooka 2010/09/17
hadoop

hive

tutorial
リンク
Hadoop＋Hive検証環境を構築してみる
Hadoop＋Hive検証環境を構築してみる：Hive――RDB使いのためのHadoopガイド（前編）（1/3 ページ） Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。
shimooka 2010/09/17
hadoop

hive

tutorial
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx