検証用として新規にセットアップしたCDH4クラスタ、YARN使用で設定してみたんだけど以下のような状態。完全分散モード。 CDH4はtarballを展開する形でインストール HADOOP_MAPRED_HOMEは hadoop/share/hadoop/mapreduce を指定 YARNで hadoop-mapreduce-example.jar は走る ResourceManagerと同ホストから以下のコマンドを実行したら成功する hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-0.23.1-cdh4.0.0b2.jar pi 4 1000 HiveでMapReduceを介さない処理は成功する 具体的にはSHOW TABLESやCREATE TABLEおよびLOADなど Hive
@tagomorisさんがこんな事を言っていたので、調べてみました。 まずは、.pipeoutファイルについて。 結論から言うと、Hiveの不具合です。 ((追記 2012/06/23 14:00)Hiveのプログラムの書き方は良くないんだけど、Leakはしていないと思われます.) この.pipeoutファイルはSessionStateのstartメソッドでOpenされます。startメソッドはHiveServerの場合、クライアントがコネクションをはった時にコールされます。(HiveSourceCodeReadingの発表資料にもちょっとだけ書いてあります。) .pipeoutファイルはHiveServerではpipeInという変数によって、BufferedReader -> FileReaderを通して参照されます。 ↓のような感じ。 pipeIn = new BufferedRead
Hive in NHN Japan (NHN Japan 田籠 聡 @tagomoris) インデックスは興味なくて、パーティション内を全部舐めて、useragentとかPCなのかモバイルなのかを調べてる リアルタイムにログがfluentで来て、hoopを使って半リアルタイムでデータHDFSに上がって、Hiveで回してる Shib, ShibUIをHiveのWeb Applicationを作って、使っている Why Hive RDBに慣らされたエンジニアの修正は恐ろしい 処理を書き捨てる勇気 そう、Hiveならね! Client Tools? Hue? カジュアルにDropとかAlterとかされたら困る 他のToolから使えないと困る 周期的に登録して、グラフでみたい Policy Copy & Paste Based Query Management Not referred Resul
メモ。CDH3u2 (hive-0.7.1-cdh3u2) での話。 (1/23 HiveServerについていくつか追記した) Hiveで自分でつくった関数(User Defined Function: UDF)を使いたい! と思い艱難辛苦を乗り越えJavaのコードを書きjarにまとめたとする。書くまでの話はWikiの該当ページなどを熟読するのがよろしい。 で、じゃあどうやってHive起動時に読み込めばいいの、という話。 add jarコマンド hiveコマンドを起動するマシンの適当なディレクトリにjarファイルを置き、そのディレクトリをカレントディレクトリとしてhiveを起動して以下のコマンドを実行する。 hive> add jar udfclass.jar; hive> create temporary function myfunc as 'my.package.udf.Class
fluentの勉強会に参加したら、まわりがモヒカンばっかりで消毒されそうになったタムタムです。 先日のMixi Engineers' Seminar #3でMixiがJSONデータをHiveで集計しているよーという発表をしていて、Fluentのtail + apacheもjsonとしてデータが飛んでいるとの事で、相性は悪くないよねーというわけでサンプルを作ってみました。(スライドを見ていた感じではこんな感じだったはず) まずサンプルデータを用意します。 適当に100件ほど作りました。 (nameが名前でexam{1|2|3}は何かのテストの点数です) {"name" : "Irma", "exam1": 58, "exam2": 73, "exam3":85} {"name" : "Dorothy", "exam1": 50, "exam2": 39, "exam3":11} {"name
OverviewHiveQL DDL statements are documented here, including: CREATE DATABASE/SCHEMA, TABLE, VIEW, FUNCTION, INDEXDROP DATABASE/SCHEMA, TABLE, VIEW, INDEXTRUNCATE TABLEALTER DATABASE/SCHEMA, TABLE, VIEWMSCK REPAIR TABLE (or ALTER TABLE RECOVER PARTITIONS)SHOW DATABASES/SCHEMAS, TABLES, TBLPROPERTIES, VIEWS, PARTITIONS, FUNCTIONS, INDEX[ES], COLUMNS, CREATE TABLEDESCRIBE DATABASE/SCHEMA, table_name
There are multiple ways to modify data in Hive: LOADINSERTinto Hive tables from queriesinto directories from queriesinto Hive tables from SQLUPDATEDELETEMERGEEXPORT and IMPORT commands are also available (as of Hive 0.8). Loading files into tablesHive does not do any transformation while loading data into tables. Load operations are currently pure copy/move operations that move datafiles into loca
こんにちは、ポテトサラダを極めようと心に決めたタムタムです。 (昨日作って食べたら満足しました(・w・)) 今日はHiveのパッチの書き方をまとめます。 Hadoop本体とはちょっと作法が違います。Hadoop本体はパッチを投げると自動でJenkinsがテストしてくれたりするらしいのですが、Hiveはそんなことやってくれません。またパッチもJIRAに添付するだけではダメで、Phabricator(Reviewボードみたいなもの)というツールを使ってDiffをアップしてReviewしてもらう必要があります。 今回は実際にHIVE-2703のパッチを投げるまでの手順を書いていきます。 http://mt.orz.at/archives/2012/02/hivejira.html こちらの内容と被っていますが、こっちでは説明しきれなかったところも書いていきます。 なお、手順はsubversion
タムタムです。Hadoop アドベントカレンダーの12/24分 を書かせていただきます。 それと、時々ログ解析飲み会というものをやっているという噂があるのですが、わたしも混ぜてください>< さて、まずはじめに・・。 ログが整形されているなんて都市伝説です。 自分が作るアプリは最初からログ設計をして整形して出力しているのですが、世の中そんなものばかりではありません。Hiveで集計するためにはある程度書式が整っていないとスマートに処理できません。 適当なスクリプトで処理するのも手ですが、もともと分散しないと処理できないほどの量なのに、それを分散環境で処理しないとか無いと思います・・。 となると、スクリプトを書いてHadoop Streamingでログを処理すればいいよねーとなるわけです。が、用途はある程度限られてしまいますが実はHiveでも出来ます。 例えば、以下のようなログがあるとします。
According to business intelligence provider Jaspersoft, MongoDB and Hadoop dominate the big data landscape among its users. The company today announced a new service, called the Big Data Index, which is a monthly measure of the big data platforms that users connect to Jaspersoft’s BI software. The company also released an infographic (below) highlighting the top platforms for January 2011 through
データの保存:INSERT 検索結果を画面に表示するだけでは先に進まないので、次にデータを保存する方法を説明します。 Hiveではデータを保存するためにINSERT文を使います。これはSQLのINSERT文と大きく異なる部分で、テーブルのデータを更新するのではなく、次々と新しいテーブルやファイルを作って処理を進めていきます。 具体的には、次の3つの方法があります。 Hiveのテーブルにデータを直接インサート HDFS注のファイルとして保存注のファイルとして保存 ユーザーが直接扱う(普通の)ファイルとして保存 以降でそれぞれを見ていきましょう。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く