[B! hive] showyouのブックマーク

hiveでヘッダ付きのcsvファイルをテーブルにロードする : mwSoft blog

csvファイルをhiveに読ませる場合に、ヘッダが付いていたらどうするか。そのまま読み込ませるとヘッダ行も列に追加されてしまう。 hive0.13からはskip.header.line.countを指定して、行を飛ばせるらしい。ついでにフッタ行を飛ばす skip.footer.line.count もいるようだ。下記、サンプルのcreate文。最後の行でtblpropertiesに1行ヘッダスキップする設定にしている。 create table foo (foo string, bar string, baz string) row format delimited fields terminated by ',' lines terminated by '\n' tblproperties ('skip.header.line.count'='1'); 下記のようなcsvを読み込ませる

showyou 2018/12/01

hive

リンク

Azure Data Lake Store にローカルマシンから Hive クエリーを投げる | DATUM STUDIO株式会社

Azure Data Lake Storeとは Azure Data Lake Store（ADLS）は Azure 上にファイルを蓄積する際に利用できるサービスの 1 つです。 Azure Blob Storage（WASB）の容量 500 テラバイトという上限に対して、無制限の容量を提供します。 Azure Active Directory の ID でファイルごとの権限設定も可能なので、マルチユーザーでの利用も安心できます。 ADLS も WASB も HDFS と互換があり、それぞれのサービスに保存されているデータに対して分析処理を行うことができます。データを一元的に蓄積して分析するという流れを考えると、 ADLS は最適なサービスであり、実際にそれをサポートするような Azure のサービスもあります。例えば HDInsight はマネージド Hadoop クラスターであ

showyou 2018/10/24

hive

リンク

Azure HDInsight で Apache Ambari を使用してクラスターを最適化する

HDInsight は、大規模なデータ処理アプリケーションの Apache Hadoop クラスターを提供します。これらの複雑なマルチノードクラスターの管理、監視、最適化は困難な場合があります。 Apache Ambari は、HDInsight Linux クラスターを管理および監視するための Web インターフェイスです。 Ambari Web UI の使用の概要については、Apache Ambari Web UI を使用した HDInsight クラスターの管理に関するページを参照してくださいクラスターの資格情報を使用して Ambari (https://CLUSTERNAME.azurehdidnsight.net) にログインします。初期画面に概要ダッシュボードが表示されます。 Ambari Web UI は、ホスト、サービス、アラート、構成、ビューの管理に使用されます。

showyou 2018/10/23

hive

リンク

「基幹業務もHadoopで!!」のその後　〜性能編〜 | フューチャー技術ブログ

こんにちは、須田です。今年の初めに「基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入とその取り組みについて-」と題しまして、Hadoop / Spark Conference Japan 2016にて発表させて頂きました。カンファレンスでの発表時は絶賛開発中だったこともあり、いかに業務要件を設計/実装に落としていったかという話を中心に行いました。本エントリでは、「カンファレンスのその後」と題しまして、開発後の性能テストを通じて、いかにプロダクト環境に耐えられる品質にまで高めていったのかについて記載します。ピーク時では数百HiveQL/秒を処理するこのシステムにおいて、どういった課題があり、そのために実施した対策やチューニングポイントについてまとめます。主にHiveおよびYARNを中心にその取り組みについて記載していきます。ぜひ本エ

showyou 2018/10/23

hive

リンク

ほぼやけくそHive Hacks – OpenGroove

Hive Hacksあれこれ。内容はほぼO’REILLY Hadoop Hacksからの引用そのまんま。ただの個人メモなのだが、ずうずうしく公開させてもらいます。いろんなところに記録しておいてもすぐに「あれ、あのメモどこやったっけ」となるのでここに書くのが一番なんだよね。書いたからって理解できるわけでもないんだが… （初めに書いておくと、この投稿長いです）基本原則的なこと。 ●UPDATEは回避する処理速度が遅延するため、UPDATEを多数含むようなSQLをHiveSQLに変換することは避けるべき ●MapReduceタスクのオーバーヘッド Hiveは「高スループットを目指す処理には向いているが、低レンテンシを目指す処理には向いていない」というMapReduce処理の特徴を引き継いでいる。MapReduceタスクのオーバーヘッドが付きまとうことを念頭におく。 ●並列分散ができない処理

showyou 2018/10/23

hive

リンク

Hiveの機能 | Hadoop Advent Calendar 2016 #08 | DevelopersIO

こんにちは、小澤です。この記事はHadoop Advent Calendar 8日目のものとなります。 1人でHadoopの話をする Advent Calendar 2016 - Qiita Hadoop Advent Calendar 2016 ｜シリーズ｜ Developers.IO 前回はApache TezというMapReduceに変わるHadoop上での分散処理フレームワークを紹介しました。今回はHiveを利用していく上で必須であったり、知っておくとパフォーマンスチューニングなどで役に立つ機能を紹介します。今回の内容ですが、Hiveの実行エンジンにはTez, ファイルフォーマットにORCを使っている前提とします。すべてではありませんが、いくつかの項目はそれらに依存しているためです。パーティショニングこれは実用上ではほぼ必須となるものです。 Hiveでのパーティショ

showyou 2018/10/17

hive

リンク

Apache Hive で圧縮形式のデータを扱う - CUBE SUGAR CONTAINER

Apache Hive のテーブルを構成するデータは、デフォルトでは無圧縮になっている。しかし、設定を変更することで圧縮形式のデータも扱うことができる。そこで、今回は Apache Hive で圧縮形式のデータを扱ってみることにする。データを圧縮することには、主に二つのメリットがある。まず一つ目は HDFS 上のサイズが小さくなるのでディスク容量の節約になること。そして二つ目こそ本命だけどサイズが小さくなるので読み出しにかかるディスク I/O の負荷も下げることができる。 Hadoop においてディスク I/O は最もボトルネックになりやすいところなので、これは重要となる。使った環境は次の通り。 $ cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) $ uname -r 3.10.0-693.11.1.el

showyou 2018/10/10

hive

リンク

Apache Hive の Partition 機能を使ってみる - CUBE SUGAR CONTAINER

今回は Apache Hive の Partition 機能を使ってみる。 Partition 機能を用いない場合、クエリを発行するとテーブルを構成するファイル群にフルスキャンがかかる。それに対し、Partition 機能を用いるとクエリによってはスキャンするファイルの範囲を制限できる。結果としてパフォーマンスの向上が見込める場合がある。使った環境は次の通り。 Apache Hive や Hadoop のインストール部分については省略する。 $ cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) $ uname -r 3.10.0-693.5.2.el7.x86_64 $ hadoop version Hadoop 2.8.3 Subversion https://git-wip-us.apache.org/rep

showyou 2018/10/10

hive

リンク

チュートリアル:対話型クエリによる ETL 操作 - Azure HDInsight

Year, FlightDate, Reporting_Airline, DOT_ID_Reporting_Airline, Flight_Number_Reporting_Airline, OriginAirportID, Origin, OriginCityName, OriginState, DestAirportID, Dest, DestCityName, DestState, DepDelayMinutes, ArrDelay, ArrDelayMinutes, CarrierDelay, WeatherDelay, NASDelay, SecurityDelay, LateAircraftDelay. [Download] を選択します。選択したデータフィールドを含む .ZIP ファイルがダウンロードされます。 HDInsight クラスターにデータをアップロードする H

showyou 2018/10/10

hive

リンク

Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016 - [PDF Document]

showyou 2018/10/04

hive

リンク

Hive クエリを最適化する - 毛無しさん@キレートレモン

Hadoop本 HADOOP HACKS を参考に、HiveQL がどんな Map/Reduce タスクに展開されるのかを想像しつつ(ソースは読んでないのであくまで想像)、効率の良い Hiveクエリの書き方を考えてみる。まずは、普通のクエリ SELECT * FROM movie は、どんな Map/Reduce タスクに変換されるんでしょうか？ hive で > EXPLAIN SELECT * FROM movie; とやってみると、 ABSTRACT SYNTAX TREE: (TOK_QUERY (TOK_FROM (TOK_TABREF (TOK_TABNAME movie))) (TOK_INSERT (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE)) (TOK_SELECT (TOK_SELEXPR TOK_ALLCOLREF)))) ST

showyou 2018/10/04

hive

リンク

LanguageManual Explain - Apache Hive - Apache Software Foundation

EXPLAIN SyntaxHive provides an EXPLAIN command that shows the execution plan for a query. The syntax for this statement is as follows: EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE] query AUTHORIZATION is supported from HIVE 0.14.0 via HIVE-5961. VECTORIZATION is supported from Hive 2.3.0 via HIVE-11394. LOCKS is supported from Hive 3.2.0 via HIVE-17683. AST was re

showyou 2018/10/04

hive

リンク

Hive on TezのEXPLAINを読み解く | DevelopersIO

こんにちは、小澤です。 RDBではおなじみのEXPLAIN、実行計画を確認しクエリを最適化したり、インデックスの貼り方を考えたりするのによく使われるかと思います。このEXPLAINですが、Hiveでも利用可能です。 HiveのEXPLAINはMapReduceやTez, Sparkのジョブに変換されるため、少々見方が特殊でこれらの知識も必要になります。実行エンジンによって表示され方が異なるため、今回はHive on Tezに限定してこのEXPLAINの見方を解説していきます。今回利用するクエリ今回は、TPC-DSというOLAPなどの分析系クエリのベンチマークで利用されるデータを利用して見ていきたいと思います。 TPC-DSの詳細については解説しませんので、気になる方は公式の情報をご確認ください。 TPC-DS HiveでTPC-DSを利用できる環境を整えるために、以下のスクリプトを

showyou 2018/10/04

hive

リンク

Sessionization in SQL, Hive, Pig and Python — Dataiku Academy 7.0 documentation

Why sessionization?¶ Sessionization is the act of turning event-based data into sessions, the ordered list of a user’s actions in completing a task. It is widely used in several domains, such as: Web analytics. This is the most common use, where a session is composed of a user’s actions during one particular visit to the website. You can think of this as a buying session on a e-business website fo

showyou 2017/02/07

リンク

Hiveのクエリを何倍も速くする４つの方法 - Qiita

はじめに HiveはHDFS上のデータをSQLで操作できるHadoopのエコシステムです。Facebook社により開発され、現在はApacheのトッププロジェクトの一つです。 Hiveがリリースされてから7年ほど時間が経ちました。その間に他のビッグデータ用のSQLエンジンがいくつか登場しました。これらのSQLエンジンの多くは、Hiveが苦手としていた低レイテンシなクエリの実行に応えることにフォーカスしています。従来HiveのバックエンドはMapReduceで動いており、クエリを実行すると完了するまで数分から数十分、数時間の時間がかかりました。そのためアナリストの解析用途で利用するのは難しく、主にデイリーやアワリーの集計などのバッチ処理として利用されてきました。しかしながら、現在もHiveの開発・改善は非常に活発に行われています。特にここ１〜２年の間にHortonworks社を中心と

showyou 2016/07/16

hive
hadoop

リンク

Hcj2014 myui

Slide@Hadoop Conference Japan 2014 Video http://www.ustream.tv/recorded/49697833

showyou 2014/07/14

hive

リンク

GitHub - kawaa/Beetest: A super simple utility for testing Apache Hive scripts locally for non-Java developers.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

showyou 2014/06/12

hiveクエリのユニットテスト・ツール

hadoop
hive

リンク

A perfect Hive query for a perfect meeting (Hadoop Summit 2014)

A perfect Hive query for a perfect meeting (Hadoop Summit 2014) During one of our epic parties, Martin Lorentzon (chairman of Spotify) agreed to help me to arrange a dinner for me and Timbuktu (my favourite Swedish rap and reggae artist), if I prove somehow that I am the biggest fan of Timbuktu in my home country. Because at Spotify we attack all probl ems using data-driven approaches, I decided to

showyou 2014/06/10

hiveのunittestツール、JVMのメモリサイズ、ORCFile、Tez。このくらいの議論が日本のHadoopカンファレンスで出ると嬉しいのに

リンク

Cloudera Blog

Enterprises see embracing AI as a strategic imperative that will enable them to stay relevant in increasingly competitive markets. However, it rem ains difficult to quickly build these capabilities given the challenges with finding readily available talent and resources to get started rapidly on the AI journey. Cloudera recently signed a strategic collaboration agreement with Amazon […] Read blog p

showyou 2014/04/22

hive

リンク

スタースキーマと列指向データベース - wyukawa's diary

Webエンジニアのためのデータベース技術[実践]入門 (Software Design plus) 作者: 松信嘉範出版社/メーカー: 技術評論社発売日: 2012/03/09メディア: 単行本（ソフトカバー）購入: 20人クリック: 486回この商品を含むブログを見る僕はWebエンジニアではないけれども上記の本を読み、とりわけ11-3　分析系処理と列指向データベースを興味深く読みました。そこで分析用途のデータを作る場合にどうやるのがいいのか調べてみたのでメモっておきます。「おむつを買った人はビールを買う傾向がある」みたいな分析を行うためには時系列に大量の業務データを蓄積してDWHを作ります。その際にスタースキーマと呼ばれる形式でテーブル設計をします。中心のファクトテーブルは分析のキー（例：商品ID、顧客ID）と分析対象の数値データ（例：販売数量、販売金額）を持ちます。この

showyou 2013/01/29

hive

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

hiveに関するshowyouのブックマーク (23)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス