タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

hiveとcdhに関するshimookaのブックマーク (2)

  • 2014年版 Hadoopを10分で試す(4) まずはHiveから(中編)

    メタストアの役割 まず、Hadoopはデータベースではありません。HiveはHadoop(Hadoop分散ファイルシステム)にあるデータを処理するために、HiveQLにより開始されるMapReduceジョブをHadoopクラスタに投入(サブミット)するだけです。Hadoopクラスタからみれば、ワードカウントや円周率を計算するようなMapReduceジョブを実行することと、何の違いもありません。 このとき、MapReduceとして処理するために用いられるのがメタストアです。 昨日実行したクエリを例にしてみましょう。 SELECT * FROM sample_07 ORDER BY salary DESC; テーブルの名前は sample_07。ORDER BY salary としているので、少なくとも salary という列がありそうだことがわかります。 先ほど書いたように、Hiveで処理す

    2014年版 Hadoopを10分で試す(4) まずはHiveから(中編)
  • 2014年版 Hadoopを10分で試す(3) まずはHiveから(前編)

    Hadoop関連(全部俺) Advent Calendar 2014:11日目の記事です Cloudera Quickstart VMによりHadoopの環境が用意できました。HadoopのコアはHDFS(Hadoop分散ファイルシステム)とMapReduce(分散処理)ですが、今回はHadoopに関するところは無視して、まずは10分(ぐらい)で Hiveとはどんなものか、使いながら把握していきましょう。かなり大雑把なので、正確な情報は書籍やウェブでご確認下さい。 HDFSやMapReduceについては以前書いた記事などを参考にして下さい(めざせ!hadoopエンジニア(開発者編)、Hadoopを40分で理解する) Hiveとは です。愛くるしい(笑)。見れば見るほど愛着がわいてきます(笑)。なお、こんな非売品&限定のHiveTシャツもあります。 SQLを知っている人は多い HiveはAp

    2014年版 Hadoopを10分で試す(3) まずはHiveから(前編)
  • 1