[B! hive] nobusueのブックマーク

Introducing Hive-Kafka Integration for Real-Time Kafka SQL Queries - DZone

nobusue 2019/01/10

KafkaのtopicをHiveのTableとして扱えるのは便利そうだ

Kafka
hive

リンク

Hadoop利用者ならきっと知ってる、Hive/Prestoクエリ関数の挙動の違い - Qiita

HiveQLではスピードに難を感じていたため、私もPrestoを使い始めました。 MySQLやHiveで使っていたクエリを置き換える時にハマったTipsをまとめていきます。 AWS AthenaでPrestoを使っている方も増えてると思うので、Presto標準関数での記述例も拡充していきます。 Prestoとは Prestoはオンメモリで動く分散SQLエンジンで、その進化は目を見張る物です。発表された当時は色々な成約があり使うことを躊躇していましたが、2015年頃からはもう使わない理由はなくなりました。アドホックに使えるとても高速なSQLエンジンですので、バッチ向けのHiveのように実行結果を待つ時間はほとんどありません。 Hiveですと1つ1つの実行に時間が掛かるので、クエリに慣れていない新参者には辛い物がありました。しかしPrestoではインタラクティブに実行できますので、トライ

nobusue 2017/01/12

hive
Presto

リンク

Hiveを高速化するLLAP

Hadoop/Spark Conference Japan 2016( http://hcj2016.eventbrite.com )で発表した資料Read less

nobusue 2016/12/26

hive
LLAP

リンク

Apache Hiveの今とこれから - 2016

今回のウェビナーでは、Hadoop1.xからみなさまに深く親しまれてきたApache Hiveが昨今、どのような形で高速化されてきたかについて話します。MapReduceからTezに変わった実行エンジン、インデックスを持ったカラムナーファイルフォーマットであるORC、モダンなCPUを最大限に活用するVectorization、Apache Calciteを利用したCost Based Optimizerによる実行計画の最適化、そして1秒以下のクエリレスポンスを実現するLLAPについて説明します。いずれの機能も数行の設定やコマンドで活用可能なものばかりですが、今回はそれらの背景でどんな仕組みが動いているのか、どんな仕組みで実現されているのかということについて話します。Read less

nobusue 2016/04/22

hive
hadoop

リンク

HiveやPigコマンドをHadoopクラスターで実行するには – hrendoh's tech memo

Hive CLIでHiveQLを実行したりPigLatinをリモートのHadoopクラスターで実行する場合に必要なクライアント側のHadoop設定についてまとめてみました。 Hadoopは2系�、動作の確認はCDH5を利用してしています。 Hive CLIやPigコマンドは、生成したたMapReduceジョブを同じマシンのHadoopクライアントを通してリモートのHadoopクラスタ上に送り�実行します。リモートのHadoopクラスタの情報は、HiveやPigを実行するサーバー上のHadoopクライアントが参照する以下の3つのHadoopの設定ファイルに設定します。 c�ore-site.xml yarn-site.xml mapred-site.xml これらのファイルは、Hadoopクラスタからクライアントの$HADOOP_HADOOP_CONFディレクトリ(CDH5の場合は/et

nobusue 2015/04/14

hive
CDH

リンク

祝！Hive 1.0.0 リリース

本日、Apache Hive 1.0.0 がリリースされました。ダウンロードはこちら -> https://hive.apache.org/downloads.html 下記のブログからいくつか抜粋してみます http://blog.cloudera.com/blog/2015/02/apache-hive-1-0-0-has-been-released/ 1.0.0というバージョン番号だが、実際のところは 0.14.1 相当。 1.0.0にしたのはマーケティングの都合[1]でしょうね。。。きっと） HiveServer1が取り除かれた (HIVE-6977) 公開APIのドキュメント化 (HIVE-3280、今後HIVE-9363) 今後、従来のバージョニングでの0.15が1.1.0としてリリースされる予定とのことです。このバージョンには Hive on Spark が含まれる予定とのこ

nobusue 2015/02/11

hive

リンク

HivemallでMatrix Factorization - Qiita

本記事は、Spark, SQL on Hadoop etc. Advent Calendar 2014の8日目の記事だったはずの原稿です。 Movielensデータセットを使って、HivemallにおけるMatrix Factorizationの実行方法を解説します。はじめに以前、Hadoop Conference 2014で発表させて頂いたときに聴衆の方にアンケートをとったところレコメンデーションの需要が（クラス分類か回帰分析と比べて）非常に高いという傾向がありました。Hivemallのv0.3以前もminhashやk近傍法を用いたレコメンデーション機能をサポートしておりましたが、v0.3からはMatrix Factorizationもサポート致しました。本記事では、HivemallにおけるMatrix Factorizationを用いた評価値の予測方法を紹介します。 Matrix

nobusue 2015/02/07

リンク

[Hive-user] Database limits for Hive - Grokbase

nobusue 2015/01/29

hive

リンク

SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper

Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪前書きみんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。本エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ

nobusue 2015/01/29

hive

リンク

Apache Hiveにハマり続けている毎日 - なぜか数学者にはワイン好きが多い

私自身はHiveなんていらないんですよ．．．テキストファイルを自前でパースして集計したり統計取ったり，データを学習させるのが仕事なんですが，自分でプログラム組んだ方が早いので．でも，どうしてもSQLライクなアクセス方法は，会社では捨てられないです．なので，入ってくるデータをせっせとHiveに入れているわけです．そこで今日，ハマったのはたくさんあるのですが，大きくは二点．シェルスクリプトとシェルコマンドラインの違いに気をつけよう Sqoopで，MySQLからHiveにスキーマだけ転送しようとしました．普段はシェルスクリプトの中に，次のようなコマンドを埋め込んでいました． sqoop import --connect "jdbc:mysql://mysqlserver:3306/testDB" --username user1 --password pass1 --query "SEL

nobusue 2015/01/29

hive

リンク

GoogleAnalyticsからの脱却!!Hadoop+Hive+flumeでの解析基盤の構築(後編...

こんにちは、レバレジーズデジタルアナリティクスチームです。前回の記事、【GoogleAnalyticsからの脱却!!Hadoop+Hive+flumeでの解析基盤の構築(前編)】では、ログ層、集約層、集計層について、概念的なものを説明しました。今回はもう少し詳細に、それらのデータ階層にどのようにデータを格納するか、どんなミドルウェアを使って実装しているのかを説明したいと思います。 ■ログの3階層におけるアーキテクチャ・設計思想では早速、階層ごとに、構築時に考慮したことや用いたミドルウェア等について簡単にご紹介します。 ●ログ層ログ層においては、【プロジェクト側がログを送信する】【ログを受け取って取り出せるようにする】ことが出来れば目的は果たせるので、このログ層では【Flume】と【Hive】を使用します。・Flume Flumeはログを転送するためのミドルウェアです。 ※説明はこちら⇒

nobusue 2015/01/26

FlumeNG
hive

リンク

HiveServer2

Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...Simplilearn

nobusue 2015/01/23

hive

リンク

hiveのカラム名の”_” - ritchiekotzen's blog

_c1 のように、アンダーバーから始まるカラム名は、そのままクエリで使うとエラーになる。 `_c1` のように、bucktick で囲わなければダメ。

nobusue 2015/01/14

hive

リンク

Hive - External Table With Partitions

By default, when data file is loaded, /user/${USER}/warehouse/user is created automatically. For me, it's /user/chris/warehouse/user, user is the table name, data files of user table are all located in this folder. Now, we can freely to use SQLs to analyze the data. What if What if we want to process the data by some ETL programs, and load the result data to hive, but we don't want to load them ma

nobusue 2015/01/07

hive

リンク

Hadoop – Hive演習をさらす – OpenGroove

前回の続きで、セットアップ後のHive演習記録。参考書の通りにやっただけなんだが… 前提として、演習に使うサンプルデータは以下からダウンロードし、Hadoopマシンに転送。解凍後必要なデータをhiveユーザのホームディレクトリ配下に配置している。 http://gihyo.jp/book/2012/978-4-7741-5389-6 こんな感じ。 $ ls -l /home/hive/sales_sample -rw-r--r-- 1 hive hive 7500 Sep 5 19:20 it emlist.tsv -rw-r--r-- 1 hive hive 405179 Sep 5 19:20 sales_detail.tsv -rw-r--r-- 1 hive hive 95769 Sep 5 19:20 sales.tsv -rw-r--r-- 1 hive hive 3428 S

nobusue 2015/01/06

hive

リンク

今日からはじめるお手軽 Hive データ移行 - mixi engineer blog

こんにちは．昨年知人のオーケストラ演奏会で聴いたメンデルスゾーン交響曲第４番「イタリア」が大好きな，技術部の石川有です．そんな「イタリア」大好きな私ですが Hive のデータ移行も大好きという体で，今回の記事ではオンプレミスで Hive を頑張って運用している方たちに向けて，どうしてもというときの Hive のデータ移行方法を紹介したいと思います．弊社では最近，Cloudera's Distribution including Apache Hadoop 3 update 2 (CDH3u2) から CDH 4.1.2 にバージョンアップを行なっています．このようにオンプレミスで Hive を運用している方たちの中には，すでに持っているデータをうまく移行したいという方も多いかと思います． Hive には現状 MySQL の mysqldump のような機能が提供されていないのでバ

nobusue 2015/01/06

hive

リンク

HiveでLOAD粒度を自由に変更可能にするパーティション構成 - たごもりすメモ

ひとことで言うと「通常必要なパーティション階層の更に下にもうひとつパーティションを掘っておけ」だけ。普通のパーティション設計仮にWebサーバのアクセスログを投入するためのテーブル accesslog があるとする。このテーブルを、まずサービス名 service カラムでパーティショニングし、さらに日毎にパーティショニングするとしよう。データは外部でタブ区切りにparseしておき、それを毎日LOADする。このようなテーブルになる。 CREATE TABLE accesslog ( rhost STRING, time STRING, method STRING, path STRING, status SMALLINT, bytes BIGINT, referer STRING, useragent STRING ) PARTITIONED BY (service STRING, yy

nobusue 2015/01/06

hive

リンク

Hive dynamic partition insertsにまつわるいくつかの問題と対処について - たごもりすメモ

だいぶ前のHiveの機能準拠で作ってたクラスタを大幅に作り直したので、ついでにETL処理をdynamic partition inserts一発でやればMapReduce 1ジョブで済んで超効率的に！やった！と思ったらいくつかハマったのでメモ。なおdynamic partition insertsについては説明が面倒なので公式Wikiの該当ページを読むとよい、が、簡単に言うとHiveでパーティションにINSERTするときにINSERT先のパーティション指定をSELECTクエリの出力により行う、というもの。なお断りがない限りは HDP2.1 with Hive 0.13 の環境で試したものとする。(移行元はCDH4) クエリの書き方単純に言うと、パーティションとして指定したいカラムは SELECT 句の最後に置かなければならない。簡単に言うと year=INT/month=INT

nobusue 2015/01/06

hive

リンク

HiveでJSON形式のデータを扱うようにして変更に強くする話 - wyukawa's diary

Hiveでは常識の部類に入る話なのかもしれませんが、僕が最近やったことなのでメモっておきます。たとば以下のCSVファイルがあったとします。なお今回の例はタムタムの日記 - HiveでJSON形式のログを構造化するからいただきました。m( )m name,exam1,exam2,exam3 Irma,58,73,85 Doroty,50,39,11 Echo,95,47,96 Ina,50,68,38 Kay,15,11,46この場合に単純に以下のようなHiveのテーブルを用意してデータをロードするやり方だとカラム追加がおきたときに対応しなければなりません。 CREATE TABLE sample( name STRING, exam1 INT, exam2 INT, exam3 INT ) PARTITIONED BY (yyyymmdd STRING) ROW FORMAT DELIM

nobusue 2015/01/06

hive
JSON

リンク

Hive Plays Well with JSON

Hive is an abstraction on Hadoop Map Reduce. It provides a SQL like interface for querying HDFS data, whch accounts for most of it’s popularity. In Hive, table structured data in HDFS is encapsulated with a table as in RDBMS. The DDL for table creation in Hive looks very similar to table creation DDL in RDBMS. In one of my recent projects, I had a need for storing and querying JSON formatted hie

nobusue 2015/01/06

hive
JSON

リンク

はてなブックマーク

タグ

関連タグで絞り込む (24)

hiveに関するnobusueのブックマーク (46)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス