タグ

hiveに関するhotokuのブックマーク (17)

  • HiveQL INSERT/LOADメモ(Hishidama's Apache Hive INSERT/LOAD Memo)

    LOAD DATA ファイルからテーブルへデータを入れるにはLOAD DATAを使う。 テーブルの実体はファイルなので、実際にはファイルのコピーが行われる。 LOAD DATA [LOCAL] INPATH 'パス' [OVERWRITE] INTO TABLE テーブル名 [PARTITION (項目名=値, …)] 「LOCAL」を付けると、指定したパスはローカルファイル(相対パスの場合はカレントディレクトリーを基準とする)として扱われる。つまりスキーマが「file:」になる。 「LOCAL」を付けないと、フルパスとして扱う。スキーマは、Hadoopが単独環境なら「file:」、分散環境なら「hdfs:」になる。 「OVERWRITE」を付けると上書き、つまり元のデータを消して新しいデータのみの状態となる。 「OVERWRITE」を付けないとデータ追加となる。実態としては、テーブルデー

    hotoku
    hotoku 2014/02/07
  • Custom Map Reduce Program on Hive, what's the Rule? How about input and output?

    I got stuck for a few days because I want to create a custom map reduce program based on my query on hive, I found not many examples after googling and I'm still confused about the rule. What is the rule to create my custom mapreduce program, how about the mapper and reducer class? Can anyone provide any solution? I want to develop this program in Java, but I'm still stuck ,and then when formattin

    Custom Map Reduce Program on Hive, what's the Rule? How about input and output?
    hotoku
    hotoku 2014/02/06
  • LanguageManual XPathUDF - Apache Hive - Apache Software Foundation

    hotoku
    hotoku 2014/02/05
  • LanguageManual UDF - Apache Hive - Apache Software Foundation

    When hive.cache.expr.evaluation is set to true (which is the default) a UDF can give incorrect results if it is nested in another UDF or a Hive function. This bug affects releases 0.12.0, 0.13.0, and 0.13.1. Release 0.14.0 fixed the bug (HIVE-7314). The problem relates to the UDF's implementation of the getDisplayString method, as discussed in the Hive user mailing list.

    hotoku
    hotoku 2014/02/05
  • LanguageManual Transform - Apache Hive - Apache Software Foundation

    Transform/Map-Reduce SyntaxUsers can also plug in their own custom mappers and reducers in the data stream by using features natively supported in the Hive language. e.g. in order to run a custom mapper script - map_script - and a custom reducer script - reduce_script - the user can issue the following command which uses the TRANSFORM clause to embed the mapper and the reducer scripts. By default,

  • Hiveで整形されていないログを集計する方法

    タムタムです。Hadoop アドベントカレンダーの12/24分 を書かせていただきます。 それと、時々ログ解析飲み会というものをやっているという噂があるのですが、わたしも混ぜてください>< さて、まずはじめに・・。 ログが整形されているなんて都市伝説です。 自分が作るアプリは最初からログ設計をして整形して出力しているのですが、世の中そんなものばかりではありません。Hiveで集計するためにはある程度書式が整っていないとスマートに処理できません。 適当なスクリプトで処理するのも手ですが、もともと分散しないと処理できないほどの量なのに、それを分散環境で処理しないとか無いと思います・・。 となると、スクリプトを書いてHadoop Streamingでログを処理すればいいよねーとなるわけです。が、用途はある程度限られてしまいますが実はHiveでも出来ます。 例えば、以下のようなログがあるとします。

    Hiveで整形されていないログを集計する方法
  • Hive UDFを自分で追加するときの注意点メモ - たごもりすメモ

    メモ。CDH3u2 (hive-0.7.1-cdh3u2) での話。 (1/23 HiveServerについていくつか追記した) Hiveで自分でつくった関数(User Defined Function: UDF)を使いたい! と思い艱難辛苦を乗り越えJavaのコードを書きjarにまとめたとする。書くまでの話はWikiの該当ページなどを熟読するのがよろしい。 で、じゃあどうやってHive起動時に読み込めばいいの、という話。 add jarコマンド hiveコマンドを起動するマシンの適当なディレクトリにjarファイルを置き、そのディレクトリをカレントディレクトリとしてhiveを起動して以下のコマンドを実行する。 hive> add jar udfclass.jar; hive> create temporary function myfunc as 'my.package.udf.Class

    Hive UDFを自分で追加するときの注意点メモ - たごもりすメモ
  • Home - Apache Hive - Apache Software Foundation

    Apache HiveThe Apache Hive™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage and queried using SQL syntax. Built on top of Apache Hadoop™, Hive provides the following features: Tools to enable easy access to data via SQL, thus enabling data warehousing tasks such as extract/transform/load (ETL), reporting, and data analysis.A mechani

    hotoku
    hotoku 2013/12/26
  • Jarファイルメモ(Hishidama's java-archive Memo)

    jar(ジャー)ファイル Javaアーカイブファイル。(Java Archiveを縮めてjar) 複数のclassファイルを圧縮して1つのアーカイブにまとめるので、配布するのに便利。 jarファイル 作成 / 確認 / 解凍 / 実行 異常なjarファイル [2008-12-20] 実行可能jarファイル [2007-01-09] 実行方法 [2007-01-09] 作成方法(マニフェストの作成) [/2008-08-01] -classpathとの併用 [/2009-04-12] jarファイルを動的に読み込む [/2014-04-16] jarファイル内のファイル一覧取得 [/2014-04-16] マニフェストの読み込み [/2009-01-15] jar(zip)ファイル内のファイルの読み込み [/2014-04-16] jarファイル内のメソッドの呼び出し [/2014-04-

  • Hiveユーザー定義関数メモ(Hishidama's Apache Hive UDF Memo)

    jarファイル化 Hiveにはjarファイルを読み込ませるので、作ったクラスをjarファイル化しておく。 プロジェクト/bin/build.xml: <?xml version="1.0" encoding="Shift_JIS"?> <project name="hive0.7.1" default="jar" basedir="."> <property name="src" location="../src" /> <property name="classes" location="../classes" /> <target name="jar"> <jar jarfile="C:/cygwin/tmp/hiveudf.jar"> <fileset dir="${classes}" includes="**/*.class" /> <fileset dir="${src}" in

  • hive で論理差 - ritchiekotzen's blog

    hive は where exists をサポートしていない。で、where not exists もサポートしてない。(if not exists はサポート) で、論理差(集合Aと集合Bがあるとき、AのメンバでかつBのメンバでないものを抽出)をどう実現するか? 以下でできた。 select aid from ( select a.id as aid, b.id as bid from a left outer join b on (a.id = b.id) ) abjoin where abjoin.bid is NULL ちなみに、is NULL はサポートです。

    hive で論理差 - ritchiekotzen's blog
    hotoku
    hotoku 2013/12/20
  • mixi の解析基盤とApache Hive での JSON パーサの活用の紹介 - mixi engineer blog

    こんにちは.最近ピクルス作りで精神統一をしている,たんぽぽグループ解析チームの石川有です. このブログではお馴染みのたんぽぽグループですが,"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"というミッションを持っています.その中で解析チームは,データ解析基盤の構築,データマイニング,データ解析の社内コンサルティングを行ない技術からの改善を担当しています. 今回の記事では,mixi における解析基盤について簡単に触れたあと,その基盤における「刺身の上にタンポポをのせる仕事」をどう減らすかの2点について書きます. mixi の解析基盤 まずは解析環境について,簡単にお話します.2012-08 現在 mixi では,主な解析用のツールとしては,Apache Hadoop, Hive を利用しています.またあわせて,自分など一部の人は,

    mixi の解析基盤とApache Hive での JSON パーサの活用の紹介 - mixi engineer blog
  • Hiveでパーティションを利用する – OpenGroove

    hiveにパーティションを導入すれば、パーツを指定してクエリを発行できるので、余計な読み込みを抑えて効率よく処理することができる。…ということで、チャチャッと演習(といいつつ長い)。 テーブル作成。 以下太字で示しているパーティションのkeyは、データに含まれていない値でかまわない。 hive> CREATE TABLE sales( id INT, shop_id STRING, date_id STRING ) PARTITIONED BY(dt STRING) ← パーティション用のkeyを指定。 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'; hive> LOAD DATA LOCAL INPATH '/home/hiveuser/20130101.tsv' OVERWRITE INT

    hotoku
    hotoku 2013/12/11
  • SIOS ビッグデータ技術ブログ: Treasure DataにおけるHiveQLのTips

    こんにちは、今回のブログ担当 高橋です。 題とは逸れますが、ビッグデータに関連するトレンドとして、M2M(Machine to Machine)やIoT(Internet of Things)と呼ばれる技術があります。 SIOSビッグデータチームとしても、これらの技術によって大量に収集されるデータには注目しています。 これらの技術を個人で実現可能なプログラマブルデバイスとして、ArduinoやRaspberry Piが普及してきています。 特に、Arduinoは、接触センサや赤外センサなど各種センサを実装でき、なおかつBluetoothやZigBeeなどの通信モジュールの実装も可能です。 例えば、複数台のArduinoを組み合わせて自宅内センサネットワークを構築し、日常生活の見える化ができたら楽しそうですね。 こうしたビッグデータを生み出す様々なアイデアを実現するために、私たちも日々、ビ

    SIOS ビッグデータ技術ブログ: Treasure DataにおけるHiveQLのTips
  • SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper

    Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。 例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ

  • ほぼやけくそHive Hacks – OpenGroove

    Hive Hacksあれこれ。内容はほぼO’REILLY Hadoop Hacksからの引用そのまんま。ただの個人メモなのだが、ずうずうしく公開させてもらいます。いろんなところに記録しておいてもすぐに「あれ、あのメモどこやったっけ」となるのでここに書くのが一番なんだよね。書いたからって理解できるわけでもないんだが… (初めに書いておくと、この投稿長いです) 基原則的なこと。 ●UPDATEは回避する 処理速度が遅延するため、UPDATEを多数含むようなSQLをHiveSQLに変換することは避けるべき ●MapReduceタスクのオーバーヘッド Hiveは「高スループットを目指す処理には向いているが、低レンテンシを目指す処理には向いていない」というMapReduce処理の特徴を引き継いでいる。MapReduceタスクのオーバーヘッドが付きまとうことを念頭におく。 ●並列分散ができない処理

  • Tutorial - Apache Hive - Apache Software Foundation

    ConceptsWhat Is HiveHive is a data warehousing infrastructure based on Apache Hadoop. Hadoop provides massive scale out and fault tolerance capabilities for data storage and processing on commodity hardware. Hive is designed to enable easy data summarization, ad-hoc querying and analysis of large volumes of data. It provides SQL which enables users to do ad-hoc querying, summarization and data ana

  • 1