[B! hive][sql] mikurassのブックマーク

mikurass id:mikurass

hiveとsqlに関するmikurassのブックマーク (2)

並列分散処理の常識をHadoopファミリから学ぶ
並列分散処理の常識をHadoopファミリから学ぶ：ビッグデータ処理の常識をJavaで身につける（2）（3/3 ページ） 3つの課題に応える「Hadoopファミリ」関連プロジェクトは、Hadoopが抱える以下の3つの課題に応えたものです。【課題1】「並列分散処理をもっと簡単に書きたい」 MapReduceをJavaで書く処理はある種のひらめきが必要ともいわれます。特に、SQLで書かれていた処理をMapReduceで書き替える場合、思考の切り替えが必要で苦労することも多いようです。たとえ慣れていても、Hadoopで簡単なデータ加工したい、そのためだけに多くのクラス定義をするのは面倒です。この難易度を下げるハイレベル言語として「Hive」「Pig」が存在します。どちらの言語もSQLやストアドプロシジャのようなコードを書いて、MapReduceを動かせます。対話型のシェルユーティリティもあり
mikurass 2012/02/29
hadoop

MapReduce

RDBMS

hive

sql

並列処理

分散処理
リンク
SQLライクにHadoop Hiveを使い倒す!
データの保存：INSERT 検索結果を画面に表示するだけでは先に進まないので、次にデータを保存する方法を説明します。 Hiveではデータを保存するためにINSERT文を使います。これはSQLのINSERT文と大きく異なる部分で、テーブルのデータを更新するのではなく、次々と新しいテーブルやファイルを作って処理を進めていきます。具体的には、次の3つの方法があります。 Hiveのテーブルにデータを直接インサート HDFS注のファイルとして保存注のファイルとして保存ユーザーが直接扱う（普通の）ファイルとして保存以降でそれぞれを見ていきましょう。
mikurass 2010/10/15
Hadoop

Hive

sql
リンク
1