[B! hive] hotokuのブックマーク

HiveQL INSERT/LOADメモ(Hishidama's Apache Hive INSERT/LOAD Memo)

LOAD DATA ファイルからテーブルへデータを入れるにはLOAD DATAを使う。テーブルの実体はファイルなので、実際にはファイルのコピーが行われる。 LOAD DATA [LOCAL] INPATH 'パス' [OVERWRITE] INTO TABLE テーブル名 [PARTITION (項目名=値, …)] 「LOCAL」を付けると、指定したパスはローカルファイル（相対パスの場合はカレントディレクトリーを基準とする）として扱われる。つまりスキーマが「file:」になる。「LOCAL」を付けないと、フルパスとして扱う。スキーマは、Hadoopが単独環境なら「file:」、分散環境なら「hdfs:」になる。「OVERWRITE」を付けると上書き、つまり元のデータを消して新しいデータのみの状態となる。「OVERWRITE」を付けないとデータ追加となる。実態としては、テーブルデー

hotoku 2014/02/07

hive

リンク

Custom Map Reduce Program on Hive, what's the Rule? How about input and output?

I got stuck for a few days because I want to create a custom map reduce program based on my query on hive, I found not many examples after googling and I'm still confused about the rule. What is the rule to create my custom mapreduce program, how about the mapper and reducer class? Can anyone provide any solution? I want to develop this program in Java, but I'm still stuck ,and then when formattin

hotoku 2014/02/06

hive

リンク

LanguageManual XPathUDF - Apache Hive - Apache Software Foundation

hotoku 2014/02/05

hive

リンク

LanguageManual UDF - Apache Hive - Apache Software Foundation

When hive.cache.expr.evaluation is set to true (which is the default) a UDF can give incorrect results if it is nested in another UDF or a Hive function. This bug affects releases 0.12.0, 0.13.0, and 0.13.1. Release 0.14.0 fixed the bug (HIVE-7314). The probl em relates to the UDF's implementation of the getDisplayString method, as discussed in the Hive user mailing list.

hotoku 2014/02/05

hive

リンク

LanguageManual Transform - Apache Hive - Apache Software Foundation

Transf orm/Map-Reduce SyntaxUsers can also plug in their own custom mappers and reducers in the data stream by using features natively supported in the Hive language. e.g. in order to run a custom mapper script - map_script - and a custom reducer script - reduce_script - the user can issue the following command which uses the TRANSF ORM clause to embed the mapper and the reducer scripts. By default,

hotoku 2014/01/22

hive
hadoop

リンク

Hiveで整形されていないログを集計する方法

タムタムです。Hadoop アドベントカレンダーの12/24分を書かせていただきます。それと、時々ログ解析飲み会というものをやっているという噂があるのですが、わたしも混ぜてください＞＜さて、まずはじめに・・。ログが整形されているなんて都市伝説です。自分が作るアプリは最初からログ設計をして整形して出力しているのですが、世の中そんなものばかりではありません。Hiveで集計するためにはある程度書式が整っていないとスマートに処理できません。適当なスクリプトで処理するのも手ですが、もともと分散しないと処理できないほどの量なのに、それを分散環境で処理しないとか無いと思います・・。となると、スクリプトを書いてHadoop Streamingでログを処理すればいいよねーとなるわけです。が、用途はある程度限られてしまいますが実はHiveでも出来ます。例えば、以下のようなログがあるとします。

hotoku 2014/01/22

hive
hadoop

リンク

Hive UDFを自分で追加するときの注意点メモ - たごもりすメモ

メモ。CDH3u2 (hive-0.7.1-cdh3u2) での話。 (1/23 HiveServerについていくつか追記した) Hiveで自分でつくった関数(User Defined Function: UDF)を使いたい！と思い艱難辛苦を乗り越えJavaのコードを書きjarにまとめたとする。書くまでの話はWikiの該当ページなどを熟読するのがよろしい。で、じゃあどうやってHive起動時に読み込めばいいの、という話。 add jarコマンド hiveコマンドを起動するマシンの適当なディレクトリにjarファイルを置き、そのディレクトリをカレントディレクトリとしてhiveを起動して以下のコマンドを実行する。 hive> add jar udfclass.jar; hive> create temporary function myfunc as 'my.package.udf.Class

hotoku 2014/01/17

hadoop
hive

リンク

Home - Apache Hive - Apache Software Foundation

Apache HiveThe Apache Hive™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage and queried using SQL syntax. Built on top of Apache Hadoop™, Hive provides the following features: Tools to enable easy access to data via SQL, thus enabling data warehousing tasks such as extract/transf orm/load (ETL), reporting, and data analysis.A mechani

hotoku 2013/12/26

hive

リンク

Jarファイルメモ(Hishidama's java-archive Memo)

jar(ジャー)ファイル Javaのアーカイブファイル。（Java Archiveを縮めてjar）複数のclassファイルを圧縮して1つのアーカイブにまとめるので、配布するのに便利。 jarファイル作成 / 確認 / 解凍 / 実行異常なjarファイル [2008-12-20] 実行可能jarファイル [2007-01-09] 実行方法 [2007-01-09] 作成方法（マニフェストの作成） [/2008-08-01] -classpathとの併用 [/2009-04-12] jarファイルを動的に読み込む [/2014-04-16] jarファイル内のファイル一覧取得 [/2014-04-16] マニフェストの読み込み [/2009-01-15] jar（zip）ファイル内のファイルの読み込み [/2014-04-16] jarファイル内のメソッドの呼び出し [/2014-04-

hotoku 2013/12/24

hive
java

リンク

Hiveユーザー定義関数メモ(Hishidama's Apache Hive UDF Memo)

jarファイル化 Hiveにはjarファイルを読み込ませるので、作ったクラスをjarファイル化しておく。プロジェクト/bin/build.xml： <?xml version="1.0" encoding="Shift_JIS"?> <project name="hive0.7.1" default="jar" basedir="."> <property name="src" location="../src" /> <property name="classes" location="../classes" /> <target name="jar"> <jar jarfile="C:/cygwin/tmp/hiveudf.jar"> <fileset dir="${classes}" includes="**/*.class" /> <fileset dir="${src}" in

hotoku 2013/12/24

hive
hadoop

リンク

hive で論理差 - ritchiekotzen's blog

hive は where exists をサポートしていない。で、where not exists もサポートしてない。（if not exists はサポート）で、論理差（集合Aと集合Bがあるとき、AのメンバでかつBのメンバでないものを抽出）をどう実現するか？以下でできた。 select aid from ( select a.id as aid, b.id as bid from a left outer join b on (a.id = b.id) ) abjoin where abjoin.bid is NULL ちなみに、is NULL はサポートです。

hotoku 2013/12/20

hive

リンク

mixi の解析基盤とApache Hive での JSON パーサの活用の紹介 - mixi engineer blog

こんにちは．最近ピクルス作りで精神統一をしている，たんぽぽグループ解析チームの石川有です．このブログではお馴染みのたんぽぽグループですが，"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"というミッションを持っています．その中で解析チームは，データ解析基盤の構築，データマイニング，データ解析の社内コンサルティングを行ない技術からの改善を担当しています．今回の記事では，mixi における解析基盤について簡単に触れたあと，その基盤における「刺身の上にタンポポをのせる仕事」をどう減らすかの２点について書きます． mixi の解析基盤まずは解析環境について，簡単にお話します．2012-08 現在 mixi では，主な解析用のツールとしては，Apache Hadoop, Hive を利用しています．またあわせて，自分など一部の人は，

hotoku 2013/12/20

リンク

Hiveでパーティションを利用する – OpenGroove

hiveにパーティションを導入すれば、パーツを指定してクエリを発行できるので、余計な読み込みを抑えて効率よく処理することができる。…ということで、チャチャッと演習（といいつつ長い）。テーブル作成。以下太字で示しているパーティションのkeyは、データに含まれていない値でかまわない。 hive> CREATE TABLE sales( id INT, shop_id STRING, date_id STRING ) PARTITIONED BY(dt STRING)　← パーティション用のkeyを指定。 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'; hive> LOAD DATA LOCAL INPATH '/home/hiveuser/20130101.tsv' OVERWRITE INT

hotoku 2013/12/11

hive

リンク

SIOS　ビッグデータ技術ブログ: Treasure DataにおけるHiveQLのTips

こんにちは、今回のブログ担当高橋です。本題とは逸れますが、ビッグデータに関連するトレンドとして、M2M(Machine to Machine)やIoT(Internet of Things)と呼ばれる技術があります。 SIOSビッグデータチームとしても、これらの技術によって大量に収集されるデータには注目しています。これらの技術を個人で実現可能なプログラマブルデバイスとして、ArduinoやRaspberry Piが普及してきています。特に、Arduinoは、接触センサや赤外センサなど各種センサを実装でき、なおかつBluetoothやZigBeeなどの通信モジュールの実装も可能です。例えば、複数台のArduinoを組み合わせて自宅内センサネットワークを構築し、日常生活の見える化ができたら楽しそうですね。こうしたビッグデータを生み出す様々なアイデアを実現するために、私たちも日々、ビ

hotoku 2013/12/11

hive
hadoop

リンク

SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper

Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪前書きみんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。本エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ

hotoku 2013/12/11

hive
Hadoop

リンク

ほぼやけくそHive Hacks – OpenGroove

Hive Hacksあれこれ。内容はほぼO’REILLY Hadoop Hacksからの引用そのまんま。ただの個人メモなのだが、ずうずうしく公開させてもらいます。いろんなところに記録しておいてもすぐに「あれ、あのメモどこやったっけ」となるのでここに書くのが一番なんだよね。書いたからって理解できるわけでもないんだが… （初めに書いておくと、この投稿長いです）基本原則的なこと。 ●UPDATEは回避する処理速度が遅延するため、UPDATEを多数含むようなSQLをHiveSQLに変換することは避けるべき ●MapReduceタスクのオーバーヘッド Hiveは「高スループットを目指す処理には向いているが、低レンテンシを目指す処理には向いていない」というMapReduce処理の特徴を引き継いでいる。MapReduceタスクのオーバーヘッドが付きまとうことを念頭におく。 ●並列分散ができない処理

hotoku 2013/12/11

hive
hadoop

リンク

Tutorial - Apache Hive - Apache Software Foundation

ConceptsWhat Is HiveHive is a data warehousing infrastructure based on Apache Hadoop. Hadoop provides massive scale out and fault tolerance capabilities for data storage and processing on commodity hardware. Hive is designed to enable easy data summarization, ad-hoc querying and analysis of large volumes of data. It provides SQL which enables users to do ad-hoc querying, summarization and data ana

hotoku 2013/09/19

hadoop
hive

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

hiveに関するhotokuのブックマーク (17)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス