タグ

hiveに関するshowyouのブックマーク (23)

  • hiveでヘッダ付きのcsvファイルをテーブルにロードする : mwSoft blog

    csvファイルをhiveに読ませる場合に、ヘッダが付いていたらどうするか。そのまま読み込ませるとヘッダ行も列に追加されてしまう。 hive0.13からはskip.header.line.countを指定して、行を飛ばせるらしい。ついでにフッタ行を飛ばす skip.footer.line.count もいるようだ。 下記、サンプルのcreate文。最後の行でtblpropertiesに1行ヘッダスキップする設定にしている。 create table foo (foo string, bar string, baz string) row format delimited fields terminated by ',' lines terminated by '\n' tblproperties ('skip.header.line.count'='1'); 下記のようなcsvを読み込ませる

    showyou
    showyou 2018/12/01
  • Azure Data Lake Store にローカルマシンから Hive クエリーを投げる | DATUM STUDIO株式会社

    Azure Data Lake Storeとは Azure Data Lake Store(ADLS) は Azure 上にファイルを蓄積する際に利用できるサービスの 1 つです。 Azure Blob Storage(WASB) の容量 500 テラバイトという上限に対して、 無制限の容量を提供します。 Azure Active Directory の ID でファイルごとの権限設定も可能なので、 マルチユーザーでの利用も安心できます。 ADLS も WASB も HDFS と互換があり、それぞれのサービスに保存されているデータに対して分析処理を行うことができます。データを一元的に蓄積して分析するという流れを考えると、 ADLS は最適なサービスであり、実際にそれをサポートするような Azure のサービスもあります。例えば HDInsight はマネージド Hadoop クラスターであ

    Azure Data Lake Store にローカルマシンから Hive クエリーを投げる | DATUM STUDIO株式会社
    showyou
    showyou 2018/10/24
  • Azure HDInsight で Apache Ambari を使用してクラスターを最適化する

    HDInsight は、大規模なデータ処理アプリケーションの Apache Hadoop クラスターを提供します。 これらの複雑なマルチノード クラスターの管理、監視、最適化は困難な場合があります。 Apache Ambari は、HDInsight Linux クラスターを管理および監視するための Web インターフェイスです。 Ambari Web UI の使用の概要については、Apache Ambari Web UI を使用した HDInsight クラスターの管理に関するページを参照してください クラスターの資格情報を使用して Ambari (https://CLUSTERNAME.azurehdidnsight.net) にログインします。 初期画面に概要ダッシュボードが表示されます。 Ambari Web UI は、ホスト、サービス、アラート、構成、ビューの管理に使用されます。

    Azure HDInsight で Apache Ambari を使用してクラスターを最適化する
    showyou
    showyou 2018/10/23
  • 「基幹業務もHadoopで!!」のその後 〜性能編〜 | フューチャー技術ブログ

    こんにちは、須田です。 今年の初めに「基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-」と題しまして、Hadoop / Spark Conference Japan 2016にて発表させて頂きました。 カンファレンスでの発表時は絶賛開発中だったこともあり、いかに業務要件を設計/実装に落としていったかという話を中心に行いました。 エントリでは、「カンファレンスのその後」と題しまして、開発後の性能テストを通じて、いかにプロダクト環境に耐えられる品質にまで高めていったのかについて記載します。 ピーク時では数百HiveQL/秒を処理するこのシステムにおいて、どういった課題があり、そのために実施した対策やチューニングポイントについてまとめます。 主にHiveおよびYARNを中心にその取り組みについて記載していきます。 ぜひ

    「基幹業務もHadoopで!!」のその後 〜性能編〜 | フューチャー技術ブログ
    showyou
    showyou 2018/10/23
  • ほぼやけくそHive Hacks – OpenGroove

    Hive Hacksあれこれ。内容はほぼO’REILLY Hadoop Hacksからの引用そのまんま。ただの個人メモなのだが、ずうずうしく公開させてもらいます。いろんなところに記録しておいてもすぐに「あれ、あのメモどこやったっけ」となるのでここに書くのが一番なんだよね。書いたからって理解できるわけでもないんだが… (初めに書いておくと、この投稿長いです) 基原則的なこと。 ●UPDATEは回避する 処理速度が遅延するため、UPDATEを多数含むようなSQLをHiveSQLに変換することは避けるべき ●MapReduceタスクのオーバーヘッド Hiveは「高スループットを目指す処理には向いているが、低レンテンシを目指す処理には向いていない」というMapReduce処理の特徴を引き継いでいる。MapReduceタスクのオーバーヘッドが付きまとうことを念頭におく。 ●並列分散ができない処理

    showyou
    showyou 2018/10/23
  • Hiveの機能 | Hadoop Advent Calendar 2016 #08 | DevelopersIO

    こんにちは、小澤です。 この記事はHadoop Advent Calendar 8日目のものとなります。 1人でHadoopの話をする Advent Calendar 2016 - Qiita Hadoop Advent Calendar 2016 | シリーズ | Developers.IO 前回はApache TezというMapReduceに変わるHadoop上での分散処理フレームワークを紹介しました。 今回はHiveを利用していく上で必須であったり、知っておくとパフォーマンスチューニングなどで役に立つ機能を紹介します。 今回の内容ですが、Hiveの実行エンジンにはTez, ファイルフォーマットにORCを使っている前提とします。 すべてではありませんが、いくつかの項目はそれらに依存しているためです。 パーティショニング これは実用上ではほぼ必須となるものです。 Hiveでのパーティショ

    Hiveの機能 | Hadoop Advent Calendar 2016 #08 | DevelopersIO
    showyou
    showyou 2018/10/17
  • Apache Hive で圧縮形式のデータを扱う - CUBE SUGAR CONTAINER

    Apache Hive のテーブルを構成するデータは、デフォルトでは無圧縮になっている。 しかし、設定を変更することで圧縮形式のデータも扱うことができる。 そこで、今回は Apache Hive で圧縮形式のデータを扱ってみることにする。 データを圧縮することには、主に二つのメリットがある。 まず一つ目は HDFS 上のサイズが小さくなるのでディスク容量の節約になること。 そして二つ目こそ命だけどサイズが小さくなるので読み出しにかかるディスク I/O の負荷も下げることができる。 Hadoop においてディスク I/O は最もボトルネックになりやすいところなので、これは重要となる。 使った環境は次の通り。 $ cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) $ uname -r 3.10.0-693.11.1.el

    Apache Hive で圧縮形式のデータを扱う - CUBE SUGAR CONTAINER
    showyou
    showyou 2018/10/10
  • Apache Hive の Partition 機能を使ってみる - CUBE SUGAR CONTAINER

    今回は Apache Hive の Partition 機能を使ってみる。 Partition 機能を用いない場合、クエリを発行するとテーブルを構成するファイル群にフルスキャンがかかる。 それに対し、Partition 機能を用いるとクエリによってはスキャンするファイルの範囲を制限できる。 結果としてパフォーマンスの向上が見込める場合がある。 使った環境は次の通り。 Apache Hive や Hadoop のインストール部分については省略する。 $ cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) $ uname -r 3.10.0-693.5.2.el7.x86_64 $ hadoop version Hadoop 2.8.3 Subversion https://git-wip-us.apache.org/rep

    Apache Hive の Partition 機能を使ってみる - CUBE SUGAR CONTAINER
    showyou
    showyou 2018/10/10
  • チュートリアル:対話型クエリによる ETL 操作 - Azure HDInsight

    Year, FlightDate, Reporting_Airline, DOT_ID_Reporting_Airline, Flight_Number_Reporting_Airline, OriginAirportID, Origin, OriginCityName, OriginState, DestAirportID, Dest, DestCityName, DestState, DepDelayMinutes, ArrDelay, ArrDelayMinutes, CarrierDelay, WeatherDelay, NASDelay, SecurityDelay, LateAircraftDelay. [Download] を選択します。 選択したデータ フィールドを含む .ZIP ファイルがダウンロードされます。 HDInsight クラスターにデータをアップロードする H

    チュートリアル:対話型クエリによる ETL 操作 - Azure HDInsight
    showyou
    showyou 2018/10/10
  • Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016 - [PDF Document]

    showyou
    showyou 2018/10/04
  • Hive クエリを最適化する - 毛無しさん@キレートレモン

    Hadoop HADOOP HACKS を参考に、HiveQL が どんな Map/Reduce タスクに展開されるのかを想像しつつ(ソースは読んでないのであくまで想像)、 効率の良い Hiveクエリの書き方を考えてみる。 まずは、普通のクエリ SELECT * FROM movie は、どんな Map/Reduce タスクに変換されるんでしょうか? hive で > EXPLAIN SELECT * FROM movie; とやってみると、 ABSTRACT SYNTAX TREE: (TOK_QUERY (TOK_FROM (TOK_TABREF (TOK_TABNAME movie))) (TOK_INSERT (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE)) (TOK_SELECT (TOK_SELEXPR TOK_ALLCOLREF)))) ST

    showyou
    showyou 2018/10/04
  • LanguageManual Explain - Apache Hive - Apache Software Foundation

    EXPLAIN SyntaxHive provides an EXPLAIN command that shows the execution plan for a query. The syntax for this statement is as follows: EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE] query AUTHORIZATION is supported from HIVE 0.14.0 via HIVE-5961. VECTORIZATION is supported from Hive 2.3.0 via HIVE-11394. LOCKS is supported from Hive 3.2.0 via HIVE-17683. AST was re

    showyou
    showyou 2018/10/04
  • Hive on TezのEXPLAINを読み解く | DevelopersIO

    こんにちは、小澤です。 RDBではおなじみのEXPLAIN、実行計画を確認しクエリを最適化したり、インデックスの貼り方を考えたりするのによく使われるかと思います。 このEXPLAINですが、Hiveでも利用可能です。 HiveのEXPLAINはMapReduceやTez, Sparkのジョブに変換されるため、少々見方が特殊でこれらの知識も必要になります。 実行エンジンによって表示され方が異なるため、今回はHive on Tezに限定してこのEXPLAINの見方を解説していきます。 今回利用するクエリ 今回は、TPC-DSというOLAPなどの分析系クエリのベンチマークで利用されるデータを利用して見ていきたいと思います。 TPC-DSの詳細については解説しませんので、気になる方は公式の情報をご確認ください。 TPC-DS HiveでTPC-DSを利用できる環境を整えるために、以下のスクリプトを

    Hive on TezのEXPLAINを読み解く | DevelopersIO
    showyou
    showyou 2018/10/04
  • Sessionization in SQL, Hive, Pig and Python — Dataiku Academy 7.0 documentation

    Why sessionization?¶ Sessionization is the act of turning event-based data into sessions, the ordered list of a user’s actions in completing a task. It is widely used in several domains, such as: Web analytics. This is the most common use, where a session is composed of a user’s actions during one particular visit to the website. You can think of this as a buying session on a e-business website fo

  • Hiveのクエリを何倍も速くする4つの方法 - Qiita

    はじめに HiveはHDFS上のデータをSQLで操作できるHadoopのエコシステムです。Facebook社により開発され、現在はApacheのトッププロジェクトの一つです。 Hiveがリリースされてから7年ほど時間が経ちました。 その間に他のビッグデータ用のSQLエンジンがいくつか登場しました。 これらのSQLエンジンの多くは、Hiveが苦手としていた低レイテンシなクエリの実行に応えることにフォーカスしています。 従来HiveのバックエンドはMapReduceで動いており、クエリを実行すると完了するまで数分から数十分、数時間の時間がかかりました。そのためアナリストの解析用途で利用するのは難しく、主にデイリーやアワリーの集計などのバッチ処理として利用されてきました。 しかしながら、現在もHiveの開発・改善は非常に活発に行われています。特にここ1〜2年の間にHortonworks社を中心と

    Hiveのクエリを何倍も速くする4つの方法 - Qiita
  • Hcj2014 myui

    Slide@Hadoop Conference Japan 2014 Video http://www.ustream.tv/recorded/49697833

    Hcj2014 myui
    showyou
    showyou 2014/07/14
  • GitHub - kawaa/Beetest: A super simple utility for testing Apache Hive scripts locally for non-Java developers.

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - kawaa/Beetest: A super simple utility for testing Apache Hive scripts locally for non-Java developers.
    showyou
    showyou 2014/06/12
    hiveクエリのユニットテスト・ツール
  • A perfect Hive query for a perfect meeting (Hadoop Summit 2014)

    A perfect Hive query for a perfect meeting (Hadoop Summit 2014) During one of our epic parties, Martin Lorentzon (chairman of Spotify) agreed to help me to arrange a dinner for me and Timbuktu (my favourite Swedish rap and reggae artist), if I prove somehow that I am the biggest fan of Timbuktu in my home country. Because at Spotify we attack all problems using data-driven approaches, I decided to

    A perfect Hive query for a perfect meeting (Hadoop Summit 2014)
    showyou
    showyou 2014/06/10
    hiveのunittestツール、JVMのメモリサイズ、ORCFile、Tez。このくらいの議論が日本のHadoopカンファレンスで出ると嬉しいのに
  • Cloudera Blog

    Enterprises see embracing AI as a strategic imperative that will enable them to stay relevant in increasingly competitive markets. However, it remains difficult to quickly build these capabilities given the challenges with finding readily available talent and resources to get started rapidly on the AI journey. Cloudera recently signed a strategic collaboration agreement with Amazon […] Read blog p

    Cloudera Blog
    showyou
    showyou 2014/04/22
  • スタースキーマと列指向データベース - wyukawa's diary

    Webエンジニアのための データベース技術[実践]入門 (Software Design plus) 作者: 松信嘉範出版社/メーカー: 技術評論社発売日: 2012/03/09メディア: 単行(ソフトカバー)購入: 20人 クリック: 486回この商品を含むブログを見る 僕はWebエンジニアではないけれども上記のを読み、とりわけ11-3 分析系処理と列指向データベースを興味深く読みました。 そこで分析用途のデータを作る場合にどうやるのがいいのか調べてみたのでメモっておきます。 「おむつを買った人はビールを買う傾向がある」みたいな分析を行うためには時系列に大量の業務データを蓄積してDWHを作ります。 その際にスタースキーマと呼ばれる形式でテーブル設計をします。 中心のファクトテーブルは分析のキー(例:商品ID、顧客ID)と分析対象の数値データ(例:販売数量、販売金額)を持ちます。 この

    スタースキーマと列指向データベース - wyukawa's diary
    showyou
    showyou 2013/01/29