Hiveでテストする場合の話ですが、データ量が少ないならVirtualBox上のLinuxにCDHを擬似分散で入れてHiveを動かしてテストすればいいと思います。 ただある程度のデータ量がないとテストにならないという場合もあるでしょう。 本番環境で試行錯誤したいという状況もあると思います。 そういった場合でもすでに動いている本番環境に影響を与えないようにしなければなりません。 ここで言っている影響とは、例えば別の人がHiveで本番環境をばりばり使っている最中にうっかりデータを消してしまってLeaseExceptionとか発生させてしまうようなことです。 なので使っているハードウェア、OS、ミドルウェアは同じでも他に影響を与えないようなサンドボックスを作ってそこでテストする必要があります。 そこで僕のところでは今どうやっているかというと、例えばpage_viewというHiveのテーブルは本番
なんかドキュメントには書いてないっぽいんだけど地味に気づいたことを書いときます。 Tipsというほどではないメモですね。2つあります。 1つめ HiveQLのコメントは--です。 例: --hoge SELECT * FROM aaa ANTLRの文法を定義したファイルであるHive.gは下記のようになってますね。 COMMENT : '--' (~('\n'|'\r'))* { $channel=HIDDEN; } ;2つめ UDFの使用例を見たい時はextendedをつける 例えば hive> desc function instr; OK instr(str, substr) - Returns the index of the first occurance of substr in strなら hive> desc function extended instr; OK inst
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く