タグ

Hadoopとhiveに関するnobusueのブックマーク (5)

  • Apache Hiveの今とこれから - 2016

    今回のウェビナーでは、Hadoop1.xからみなさまに深く親しまれてきたApache Hiveが昨今、どのような形で高速化されてきたかについて話します。MapReduceからTezに変わった実行エンジン、インデックスを持ったカラムナーファイルフォーマットであるORC、モダンなCPUを最大限に活用するVectorization、Apache Calciteを利用したCost Based Optimizerによる実行計画の最適化、そして1秒以下のクエリレスポンスを実現するLLAPについて説明します。いずれの機能も数行の設定やコマンドで活用可能なものばかりですが、今回はそれらの背景でどんな仕組みが動いているのか、どんな仕組みで実現されているのかということについて話します。Read less

    Apache Hiveの今とこれから - 2016
  • Hiveのパフォーマンスチューニングで試した7つのこと - Qiita

    Spark, SQL on Hadoop etc. Advent Calendar 2014 - Qiita 10日目の記事です。 とあるプロジェクトにて、パフォーマンスチューニングのために実施した7つのことをまとめました。 この内容はCloudera World Tokyo 2014でお話しさせていただいた内容を再編したものです。 登壇資料 - Hadoopで作る広告分析プラットフォーム 登壇の様子 - 国内最大級のHadoop関連カンファレンスに登壇してきました! 1.YARNが利用可能なリソースの変更 YARNではMR1と異なりスロットではなくコンテナという概念でリソースが管理されます。 以下のパラメータでノードマネージャがコンテナに利用可能なメモリ量、CPU数を変更しました。 yarn.nodemanager.resource.memory-mb yarn.nodemanager.

    Hiveのパフォーマンスチューニングで試した7つのこと - Qiita
  • Hadoop+Hive検証環境を構築してみる

    Hadoop+Hive検証環境を構築してみる:Hive――RDB使いのためのHadoopガイド(前編)(1/3 ページ) Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。稿ではこのHiveの使い方とレビューを行っていきます。

    Hadoop+Hive検証環境を構築してみる
    nobusue
    nobusue 2014/07/11
    今やるならインストールはCDHかなぁ
  • HCatalog UsingHCat - Apache Hive - Apache Software Foundation

    HCatalog graduated from the Apache incubator and merged with the Hive project on March 26, 2013. Hive version 0.11.0 is the first release that includes HCatalog. OverviewHCatalog is a table and storage management layer for Hadoop that enables users with different data processing tools — Pig, MapReduce — to more easily read and write data on the grid. HCatalog’s table abstraction presents users wit

  • [4]AmazonのレビューをHiveで集計する

    HDFSにファイルを格納 今度はHadoopがストレージとして利用する分散ファイルシステム「HDFS(Hadoop Distributed File System)」に、今回集計するデータを配置していきます。HDFSにディレクトリを作成し、データファイルをアップロードします。 まず、Hiveで処理するデータを用意します。サンプルデータは、第1~第2回のPig編で使用した米Amazon.com社の「Amazon review」を用います。このデータは、アメリカAmazonで取り扱っている商品のレビュー記事を抽出したものです。米イリノイ大学の Nitin Jindal氏とBing Liu氏の手によって一般に公開されており、主にテキスト分析や評判分析の研究などに使われています。 必要なデータはレビューデータの「reviewsNew.rar」と商品データの「productinfo.rar」です。

    [4]AmazonのレビューをHiveで集計する
  • 1