タグ

hiveとsqlに関するmikurassのブックマーク (2)

  • 並列分散処理の常識をHadoopファミリから学ぶ

    並列分散処理の常識をHadoopファミリから学ぶ:ビッグデータ処理の常識をJavaで身につける(2)(3/3 ページ) 3つの課題に応える「Hadoopファミリ」 関連プロジェクトは、Hadoopが抱える以下の3つの課題に応えたものです。 【課題1】「並列分散処理をもっと簡単に書きたい」 MapReduceをJavaで書く処理はある種のひらめきが必要ともいわれます。特に、SQLで書かれていた処理をMapReduceで書き替える場合、思考の切り替えが必要で苦労することも多いようです。たとえ慣れていても、Hadoopで簡単なデータ加工したい、そのためだけに多くのクラス定義をするのは面倒です。 この難易度を下げるハイレベル言語として「Hive」「Pig」が存在します。どちらの言語もSQLやストアドプロシジャのようなコードを書いて、MapReduceを動かせます。対話型のシェルユーティリティもあり

    並列分散処理の常識をHadoopファミリから学ぶ
  • SQLライクにHadoop Hiveを使い倒す!

    データの保存:INSERT 検索結果を画面に表示するだけでは先に進まないので、次にデータを保存する方法を説明します。 Hiveではデータを保存するためにINSERT文を使います。これはSQLのINSERT文と大きく異なる部分で、テーブルのデータを更新するのではなく、次々と新しいテーブルやファイルを作って処理を進めていきます。 具体的には、次の3つの方法があります。 Hiveのテーブルにデータを直接インサート HDFS注のファイルとして保存注のファイルとして保存 ユーザーが直接扱う(普通の)ファイルとして保存 以降でそれぞれを見ていきましょう。

    SQLライクにHadoop Hiveを使い倒す!
  • 1