タグ

hiveに関するnobusueのブックマーク (46)

  • Introducing Hive-Kafka Integration for Real-Time Kafka SQL Queries - DZone

    nobusue
    nobusue 2019/01/10
    KafkaのtopicをHiveのTableとして扱えるのは便利そうだ
  • Hadoop利用者ならきっと知ってる、Hive/Prestoクエリ関数の挙動の違い - Qiita

    HiveQLではスピードに難を感じていたため、私もPrestoを使い始めました。 MySQLやHiveで使っていたクエリを置き換える時にハマったTipsをまとめていきます。 AWS AthenaでPrestoを使っている方も増えてると思うので、Presto標準関数での記述例も拡充していきます。 Prestoとは Prestoはオンメモリで動く分散SQLエンジンで、その進化は目を見張る物です。 発表された当時は色々な成約があり使うことを躊躇していましたが、2015年頃からはもう使わない理由はなくなりました。 アドホックに使えるとても高速なSQLエンジンですので、バッチ向けのHiveのように実行結果を待つ時間はほとんどありません。 Hiveですと1つ1つの実行に時間が掛かるので、クエリに慣れていない新参者には辛い物がありました。 しかしPrestoではインタラクティブに実行できますので、トライ

    Hadoop利用者ならきっと知ってる、Hive/Prestoクエリ関数の挙動の違い - Qiita
  • Hiveを高速化するLLAP

    Hadoop/Spark Conference Japan 2016( http://hcj2016.eventbrite.com )で発表した資料Read less

    Hiveを高速化するLLAP
  • Apache Hiveの今とこれから - 2016

    今回のウェビナーでは、Hadoop1.xからみなさまに深く親しまれてきたApache Hiveが昨今、どのような形で高速化されてきたかについて話します。MapReduceからTezに変わった実行エンジン、インデックスを持ったカラムナーファイルフォーマットであるORC、モダンなCPUを最大限に活用するVectorization、Apache Calciteを利用したCost Based Optimizerによる実行計画の最適化、そして1秒以下のクエリレスポンスを実現するLLAPについて説明します。いずれの機能も数行の設定やコマンドで活用可能なものばかりですが、今回はそれらの背景でどんな仕組みが動いているのか、どんな仕組みで実現されているのかということについて話します。Read less

    Apache Hiveの今とこれから - 2016
  • HiveやPigコマンドをHadoopクラスターで実行するには – hrendoh's tech memo

    Hive CLIでHiveQLを実行したりPigLatinをリモートのHadoopクラスターで実行する場合に必要なクライアント側のHadoop設定についてまとめてみました。 Hadoopは2系�、動作の確認はCDH5を利用してしています。 Hive CLIやPigコマンドは、生成したたMapReduceジョブを同じマシンのHadoopクライアントを通してリモートのHadoopクラスタ上に送り�実行します。 リモートのHadoopクラスタの情報は、HiveやPigを実行するサーバー上のHadoopクライアントが参照する以下の3つのHadoopの設定ファイルに 設定します。 c�ore-site.xml yarn-site.xml mapred-site.xml これらのファイルは、Hadoopクラスタからクライアントの$HADOOP_HADOOP_CONFディレクトリ(CDH5の場合は/et

  • 祝!Hive 1.0.0 リリース

    日、Apache Hive 1.0.0 がリリースされました。ダウンロードはこちら -> https://hive.apache.org/downloads.html 下記のブログからいくつか抜粋してみます http://blog.cloudera.com/blog/2015/02/apache-hive-1-0-0-has-been-released/ 1.0.0というバージョン番号だが、実際のところは 0.14.1 相当。 1.0.0にしたのはマーケティングの都合[1]でしょうね。。。きっと) HiveServer1が取り除かれた (HIVE-6977) 公開APIのドキュメント化 (HIVE-3280、今後HIVE-9363) 今後、従来のバージョニングでの0.15が1.1.0としてリリースされる予定とのことです。このバージョンには Hive on Spark が含まれる予定とのこ

    祝!Hive 1.0.0 リリース
    nobusue
    nobusue 2015/02/11
  • HivemallでMatrix Factorization - Qiita

    記事は、Spark, SQL on Hadoop etc. Advent Calendar 2014の8日目の記事だったはずの原稿です。 Movielensデータセットを使って、HivemallにおけるMatrix Factorizationの実行方法を解説します。 はじめに 以前、Hadoop Conference 2014で発表させて頂いたときに聴衆の方にアンケートをとったところレコメンデーションの需要が(クラス分類か回帰分析と比べて)非常に高いという傾向がありました。Hivemallのv0.3以前もminhashやk近傍法を用いたレコメンデーション機能をサポートしておりましたが、v0.3からはMatrix Factorizationもサポート致しました。 記事では、HivemallにおけるMatrix Factorizationを用いた評価値の予測方法を紹介します。 Matrix

    HivemallでMatrix Factorization - Qiita
  • [Hive-user] Database limits for Hive - Grokbase

    nobusue
    nobusue 2015/01/29
  • SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper

    Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。 例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ

    nobusue
    nobusue 2015/01/29
  • Apache Hiveにハマり続けている毎日 - なぜか数学者にはワイン好きが多い

    私自身はHiveなんていらないんですよ...テキストファイルを自前でパースして集計したり統計取ったり,データを学習させるのが仕事なんですが,自分でプログラム組んだ方が早いので. でも,どうしてもSQLライクなアクセス方法は,会社では捨てられないです.なので,入ってくるデータをせっせとHiveに入れているわけです. そこで今日,ハマったのはたくさんあるのですが,大きくは二点. シェルスクリプトとシェルコマンドラインの違いに気をつけよう Sqoopで,MySQLからHiveにスキーマだけ転送しようとしました. 普段はシェルスクリプトの中に,次のようなコマンドを埋め込んでいました. sqoop import --connect "jdbc:mysql://mysqlserver:3306/testDB" --username user1 --password pass1 --query "SEL

    Apache Hiveにハマり続けている毎日 - なぜか数学者にはワイン好きが多い
    nobusue
    nobusue 2015/01/29
  • GoogleAnalyticsからの脱却!!Hadoop+Hive+flumeでの解析基盤の構築(後編...

    こんにちは、レバレジーズデジタルアナリティクスチームです。 前回の記事、【GoogleAnalyticsからの脱却!!Hadoop+Hive+flumeでの解析基盤の構築(前編)】では、ログ層、集約層、集計層について、概念的なものを説明しました。今回はもう少し詳細に、それらのデータ階層にどのようにデータを格納するか、どんなミドルウェアを使って実装しているのかを説明したいと思います。 ■ログの3階層におけるアーキテクチャ・設計思想では早速、階層ごとに、構築時に考慮したことや用いたミドルウェア等について簡単にご紹介します。 ●ログ層ログ層においては、【プロジェクト側がログを送信する】【ログを受け取って取り出せるようにする】ことが出来れば目的は果たせるので、このログ層では【Flume】と【Hive】を使用します。 ・Flume Flumeはログを転送するためのミドルウェアです。 ※説明はこちら⇒

    GoogleAnalyticsからの脱却!!Hadoop+Hive+flumeでの解析基盤の構築(後編...
  • HiveServer2

    Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Had...Simplilearn

    HiveServer2
    nobusue
    nobusue 2015/01/23
  • hiveのカラム名の”_” - ritchiekotzen's blog

    _c1 のように、アンダーバーから始まるカラム名は、そのままクエリで使うとエラーになる。 `_c1` のように、bucktick で囲わなければダメ。

    hiveのカラム名の”_” - ritchiekotzen's blog
    nobusue
    nobusue 2015/01/14
  • Hive - External Table With Partitions

    By default, when data file is loaded, /user/${USER}/warehouse/user is created automatically. For me, it's /user/chris/warehouse/user, user is the table name, data files of user table are all located in this folder. Now, we can freely to use SQLs to analyze the data. What if What if we want to process the data by some ETL programs, and load the result data to hive, but we don't want to load them ma

    nobusue
    nobusue 2015/01/07
  • Hadoop – Hive演習をさらす – OpenGroove

    前回の続きで、セットアップ後のHive演習記録。参考書の通りにやっただけなんだが… 前提として、演習に使うサンプルデータは以下からダウンロードし、Hadoopマシンに転送。 解凍後必要なデータをhiveユーザのホームディレクトリ配下に配置している。 http://gihyo.jp/book/2012/978-4-7741-5389-6 こんな感じ。 $ ls -l /home/hive/sales_sample -rw-r--r-- 1 hive hive 7500 Sep 5 19:20 itemlist.tsv -rw-r--r-- 1 hive hive 405179 Sep 5 19:20 sales_detail.tsv -rw-r--r-- 1 hive hive 95769 Sep 5 19:20 sales.tsv -rw-r--r-- 1 hive hive 3428 S

    nobusue
    nobusue 2015/01/06
  • 今日からはじめるお手軽 Hive データ移行 - mixi engineer blog

    こんにちは. 昨年知人のオーケストラ演奏会で聴いたメンデルスゾーン交響曲第4番「イタリア」が大好きな,技術部の石川有です. そんな「イタリア」大好きな私ですが Hive のデータ移行も大好きという体で, 今回の記事ではオンプレミスで Hive を頑張って運用している方たちに向けて,どうしてもというときの Hive のデータ移行方法を紹介したいと思います. 弊社では最近,Cloudera's Distribution including Apache Hadoop 3 update 2 (CDH3u2) から CDH 4.1.2 にバージョンアップを行なっています. このようにオンプレミスで Hive を運用している方たちの中には,すでに持っているデータをうまく移行したいという方も多いかと思います. Hive には現状 MySQLmysqldump のような機能が提供されていないのでバ

    今日からはじめるお手軽 Hive データ移行 - mixi engineer blog
    nobusue
    nobusue 2015/01/06
  • HiveでLOAD粒度を自由に変更可能にするパーティション構成 - たごもりすメモ

    ひとことで言うと「通常必要なパーティション階層の更に下にもうひとつパーティションを掘っておけ」だけ。 普通のパーティション設計 仮にWebサーバのアクセスログを投入するためのテーブル accesslog があるとする。このテーブルを、まずサービス名 service カラムでパーティショニングし、さらに日毎にパーティショニングするとしよう。データは外部でタブ区切りにparseしておき、それを毎日LOADする。 このようなテーブルになる。 CREATE TABLE accesslog ( rhost STRING, time STRING, method STRING, path STRING, status SMALLINT, bytes BIGINT, referer STRING, useragent STRING ) PARTITIONED BY (service STRING, yy

    HiveでLOAD粒度を自由に変更可能にするパーティション構成 - たごもりすメモ
    nobusue
    nobusue 2015/01/06
  • Hive dynamic partition insertsにまつわるいくつかの問題と対処について - たごもりすメモ

    だいぶ前のHiveの機能準拠で作ってたクラスタを大幅に作り直したので、ついでにETL処理をdynamic partition inserts一発でやればMapReduce 1ジョブで済んで超効率的に! やった! と思ったらいくつかハマったのでメモ。 なおdynamic partition insertsについては説明が面倒なので公式Wikiの該当ページを読むとよい、が、簡単に言うとHiveでパーティションにINSERTするときにINSERT先のパーティション指定をSELECTクエリの出力により行う、というもの。 なお断りがない限りは HDP2.1 with Hive 0.13 の環境で試したものとする。(移行元はCDH4) クエリの書き方 単純に言うと、パーティションとして指定したいカラムは SELECT 句の最後に置かなければならない。 簡単に言うと year=INT/month=INT

    Hive dynamic partition insertsにまつわるいくつかの問題と対処について - たごもりすメモ
    nobusue
    nobusue 2015/01/06
  • HiveでJSON形式のデータを扱うようにして変更に強くする話 - wyukawa's diary

    Hiveでは常識の部類に入る話なのかもしれませんが、僕が最近やったことなのでメモっておきます。 たとば以下のCSVファイルがあったとします。なお今回の例はタムタムの日記 - HiveでJSON形式のログを構造化するからいただきました。m( )m name,exam1,exam2,exam3 Irma,58,73,85 Doroty,50,39,11 Echo,95,47,96 Ina,50,68,38 Kay,15,11,46この場合に単純に以下のようなHiveのテーブルを用意してデータをロードするやり方だとカラム追加がおきたときに対応しなければなりません。 CREATE TABLE sample( name STRING, exam1 INT, exam2 INT, exam3 INT ) PARTITIONED BY (yyyymmdd STRING) ROW FORMAT DELIM

    HiveでJSON形式のデータを扱うようにして変更に強くする話 - wyukawa's diary
  • Hive Plays Well with JSON

    Hive is an abstraction on Hadoop Map Reduce. It provides a SQL like interface for querying HDFS data, whch accounts for most of it’s popularity.  In Hive, table structured data in HDFS is encapsulated with a table as in RDBMS.  The DDL for table creation in Hive looks very similar to table creation DDL in RDBMS. In one of my recent projects, I had a need for storing and querying JSON formatted hie

    Hive Plays Well with JSON